Валидность – это один из базовых критериев в психодиагностике тестов, методик, определяющий их качество, близкое к понятию достоверности. Применяется, когда нужно узнать насколько хорошо методика измеряет именно то, на что она ориентирована, соответственно то, насколько лучше отображается исследуемое качество, тем большая валидность данной методики.
Вопрос о валидности возникает сперва в процессе разработки материала, потом после применения теста или методики, если необходимо узнать, соответствует ли степень выраженности определяемой характеристики личности и методом измерения этого свойства.
Понятие валидности выражается корреляцией результатов, которые получились в результате применения теста или методики с другими характеристиками, которые также исследуются, и ее можно также аргументировать комплексно, с помощью разных приемов и критериев. Используются разные виды валидности: концептуальная, конструктивная, критериальная, содержательная валидности, со свойственными методами установления их степени достоверности. Иногда критерий достоверности является обязательным требованием к проверке психодиагностических методов, если они вызывают сомнения.
Чтобы психологическое исследование имело реальную ценность, оно должно быть не только валидным, а еще и надежным одновременно. Надежность позволяет экспериментатору быть уверенным в том, что исследуемое значение очень близко к истинному показателю. А валидный критерий важен тем, что он указывает, что изучается именно то, что экспериментатор предполагает. Важно обратить внимание на тот факт, что данный критерий может предположить надежность, но надежность предположить валидность не может. Надежные значения могут быть не валидными, но валидные обязаны быть надежными, в этом вся суть успешного исследования, тестирования.
Валидность это в психологии
В психологии понятие валидности обозначает уверенность экспериментатора в том, что он измерял именно то, что хотел с помощью определенной методики, показывает меру соответствия результатов и самой методики относительно поставленных задач. Валидное измерение – это то значение, которое измеряет именно то, для чего было создано. Например, методика, направлена на определение темперамента, должна измерять именно темперамент, а не нечто другое.
Валидность в экспериментальной психологии очень важный аспект, является важным показателем, который обеспечивает достоверность результатов, и с ним иногда больше всего возникает проблем. Совершенный эксперимент должен обладать безупречной валидностью, то есть он должен демонстрировать, что экспериментальный эффект вызван модификациями независимой переменной и полностью соответствовать действительности. Полученные результаты без ограничений можно обобщать. Если речь идет о степени данного критерия, то предполагается, что результаты будут соответствовать поставленным задачам.
Проверка на валидность осуществляется тремя способами.
Оценивание содержательной валидности, проводится, чтобы узнать уровень соответствия использованной методики и реальной действительности, в которой выражается исследуемое свойство в методике. Существует здесь также такой компонент, как очевидная, еще ее называют лицевая валидность, она характеризует степень соответствия теста к ожиданиям оцениваемых. В большинстве методик считается очень важным, чтобы участник оценки видел очевидную связь содержания процедуры оценки и действительности того объекта оценки.
Оценивание конструктной валидности исполняется для получения степени обоснованности, что тест реально вычисляет те конструкты, которые заданные и научно обоснованные.
В конструктной валидности имеются два направления. Первый называется конвергентной валидизацией, с его помощью проверяется ожидаемая связь результатов методики с характеристиками из других методик, которые измеряют исходные свойства. Если для измерения какой-то характеристики необходимо несколько методик, то рациональным решением было бы проведение экспериментов минимум двух методик, чтобы при сопоставлении результатов обнаружив высокую положительную корреляцию, можно было утверждать о валидном критерии.
Конвергентная валидизация определяет вероятность вариации оценки теста с ожиданиями. Второй подход, называется дискриминантная валидизация, в ней заключается, что методика не должна измерять никаких характеристик, с которой теоретически не должно быть корреляции.
Проверка на валидность, также бывает критериальной, она, руководствуясь статистическими методами, определяет степень соответствия результатов к заранее определенным внешним критериям. Такими критериями могут быть: непосредственные меры, независимые от результатов методики или значение социально-организационных значимых показателей деятельности. В критериальной валидности также выделяют прогностическую, она применяется при потребности прогнозирования поведения. И если получается, что этот прогноз осуществляется со временем, значит методика прогностически валидна.
Угрожающие факторы
Валидность в психологии – это свойство качественной методики, но могут возникнуть факторы, искажающие теоретически правильно построенную ПДМ. Побочные факторы сильнее проявляются в работе с плохо организованными стимулами или новыми, неясными ранее для испытуемого задачами.
Трудность составляет изучение неуравновешенных и неуверенных в себе индивидов. Главными угрозами высокой валидности являются особые характеристики тестируемого и ситуационные явления.
Достоверность результатов снижают:
- ошибки испытуемого;
- ошибки специалиста;
- ошибки, вызванные условиями или неправильного проведения диагностики.
Если диагностика не предполагает обязательного нахождения специалиста в помещении, то его присутствие может исказить результаты исследования. Комментарии и интерпретация тестовых задания тоже снижают достоверность полученных данных.
Испытуемый, заинтересованный в намеренных погрешностях тестирования или представлении себя в выгодном свете перед руководством, искажает результаты диагностики. Не меньшую опасность представляет психофизиологическое состояние тестируемого. Например, индивид сильно голоден, утомлен или страдает от мигрени.
Посторонний шум, голос, возможность обсуждать тестовые задания с другими испытуемыми, снижают точность результатов. Это относится к ошибкам условий и процедуры диагностики.
Валидность теста это
Тест – это стандартизованное задание в результате применения, которого получаются данные о психофизиологическом состоянии человека и его личностные свойства, его знания, способности и навыки.
Валидность и надежность тестов – это два показателя, которые определяют их качество.
Валидность теста определяет степень соответствия исследуемого качества, характеристики, психологического свойства к тесту, с помощью которого они определяются.
Валидность теста является показателем его эффективности и применяемости к измерению необходимой характеристики. Самые качественные тесты имеют 80% валидности. При валидизации следует учитывать, что от контингента испытуемых и их характеристик, будет зависеть качество результатов. Получается, что один тест может быть как высоко достоверным, так и совсем невалидным.
Существует несколько подходов к определению валидности теста.
При измерении сложного психологического явления, которое имеет иерархическую структуру и его невозможно исследовать, применяя всего один тест, применяют конструктивную валидность. Она определяет точность исследования сложных, структурированных психологических явлений, качеств личности, измеряемых с помощью тестирования.
Валидность за критерием – это такой критерий теста, за которым определяется исследуемое психологическое явление в настоящий момент и прогнозирование особенностей этого явления в будущем. Для этого результаты, полученные при тестировании соотносятся со степенью развития измеряемого качества на практике, оценка специфических способностей в определенной деятельности. Если валидность теста имеет значение минимум 0,2 то применение такого теста является оправданным.
Содержательная валидность – это критерий теста, который применяется для определения соответствия области его измеряемых психологических конструктов, демонстрирует все полноту множества измеряемых показателей.
Прогностическая валидность – критерий, за которым можно предсказать характер развития исследуемого качества в будущем. Такой критерий качества теста очень ценный, если смотреть с практической стороны, но могут быть сложности, поскольку исключается неравномерность развития данного качества в разных людей.
Надежность теста – это критерий теста, который измеряет уровень стабильности результатов, полученных после тестирования, при повторном исследовании. Определяется путем вторичного тестирования спустя определенное количество времени и расчета корреляционного коэффициента результатов, полученных после первого и после второго тестирования. Также важно, учитывать особенности самой процедуры проведения тестов и социально-психологической структуры выборки. Один и тот же тест может иметь разную надежность, зависимо от пола, возраста, социального статуса исследуемых. Поэтому надежность может иногда иметь неточности, ошибки, которые истекают из самого процесса исследования, поэтому ищутся пути, как уменьшить влияние определенных факторов на тестирование. Можно утверждать о надежности теста, если она составляет значение 0,8-0,9.
Валидность и надежность тестов очень важны, потому что определяют тест, как измерительный инструмент. Когда надежность и валидность неизвестны, тест считается неприменяемым для применения.
В измерении надежности и валидность имеет место также этический контекст. Это особенно важно, когда результаты тестирования имеют значимость в использовании их для принятия жизненно важных решений людей. Одних людей принимают на работу, других отсеивают, одни студенты проходят в учебные заведения, а другие должны еще доучиться сначала, кому-то определяется психиатрический диагноз и лечение, а кто-то здоров – это все говорит о том, что подобные решения принимаются на основании изучения оценки поведения или специальных способностей. Например, человек ищущий работу, должен пройти тестирование, и его оценки есть решающими показателями при приеме на работу, узнает, что тест был не в меру валидным и надежным, он очень разочаруется.
[Править]Надёжность как устойчивость
Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.
Устойчивость определяется с помощью повторного тестирования (ретеста):
В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,5. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему).
Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
В связи с выше сказанным применяется исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. При этом испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.
Валидность методики это
Валидность методики определяет соответствие того, что изучается данной методикой, тому для изучения чего именно она предназначена.
Например, если психологическая методика, которая основана на осведомленном самоотчете, назначена для исследования некого качества личности, такого качества, которое не может быть верно, оцененным самим человеком, то такая методика не будет валидной.
В большинстве случаев ответы, которые дает испытуемый на вопросы о наличии или отсутствии развитости в нем этого качества, может выражать то, как сам испытуемый воспринимает себя, или каким бы ему хотелось быть в глазах других людей.
Валидность также является основным требованием к психологической методике изучения психологических конструктов. Существует масса разных видов данного критерия, и нет пока единственного мнения о том, как правильно назвать эти виды и неизвестно каким именно видам методика обязана соответствовать. Если же методика оказывается невалидной внешне или внутренне, не рекомендуется ее использовать. Существуют два подхода к валидизации методики.
Теоретический подход выявляется в том, чтобы показать насколько действительно методика измеряет именно то качество, которое, как придумал исследователь, и обязана измерять. Это доказывается через составление с родственными показателями и теми, где связей не могло бы быть. Поэтому для подтверждения теоретического валидного критерия нужно определить степень связей с родственной методикой, имеется в виду конвергентный критерий и отсутствие такой связи с методиками, которые имеют иную теоретическую базу (дискриминантная валидность).
Оценивание валидности методики может быть количественной или качественной. За прагматическим подходом оценивается эффективность и практическая значимость методики, и для ее проведения используется независимый критерий извне, как показатель встречаемости данного качества в повседневной жизни. Таким критерием, например, может быть успеваемость (для методик на достижения, тестов на интеллект), субъективные оценки (для личностных методик), специфические способности, рисование, моделирование (для методик специальных особенностей).
Для доказательства валидности внешних критериев, выделяется четыре типа: критерии исполнения – это критерии такие, как количество выполненных заданий, время, потраченное на обучение; субъективные критерии получают вместе с опросниками, интервью или анкетами; физиологические – частота пульса, давление, физические симптомы; критерии случайности – используются, когда к цели имеет касательство или влияние определенного случая или обстоятельств.
При выборе методики исследования имеет теоретическое и практическое значение определение охвата изучаемых характеристик, как важной составляющей валидности. Информация, которая содержится в названии методики практически всегда не является достаточной для суждения об области ее применения. Это просто имя методики, но под ним всегда кроется еще много чего. Хорошим примером будет методика корректурной пробы. Здесь в сферу изучаемых свойств включаются концентрация внимания, устойчивость и психомоторная скорость процессов. Такая методика дает оценку выраженности этих качеств в личности, хорошо соотноситься со значениями, полученными из других методов и обладает хорошей валидностью. Вместе с тем полученные в результате проведения корректурной пробы значения подвержены большему влиянию других факторов, относительно которых методика будет неспецифичной. Если применить корректурную пробу, чтобы измерить их, то валидность будет невысокая. Выходит,что определяя область применения методики, валидный критерий отображает уровень обоснованности результатов исследования. При небольшом количестве сопровождающих факторов, которые имеют влияние на результаты, достоверность оценок, полученных в методике будет выше. Еще достоверность результатов определяется с помощью набора измеряемых свойств, их важностью при осуществлении диагностики сложной деятельности, существенностью отображения в материале методики предмета измерения. Например, для удовлетворения требований достоверности и надежности, методика, назначенная на профотбор, должна иметь анализ большого круга различных показателей, которые наиболее важные при достижении успеха в профессии.
[Править]Альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же общего основания. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.
[Править]См. Также Дискриминативность
Дискриминативность задач определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью.
Другими словами, дискриминативность — способность заданий теста дифференцировать студентов относительно «максимального» или «минимального» результата теста. Определение дискриминативности тестового задания необходимо для того, чтобы поставить заслон некачественным заданиям.
Для вычисления дискриминативности будет применяться метод крайних групп: при расчете дискриминативности тестового задания учитываются результаты наиболее и наименее успешных студентов — это самый простой и наглядный метод вычисления дискриминативности.
Доля членов крайних групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами. Нижняя граница «отсечения групп» составляет 10% от общего числа испытуемых в выборке, верхняя — 33%. В данном случае будет использоваться 27% группа, так как при таком процентном соотношении достигается максимальная точность определения дискриминативности. Индекс дискриминации вычисляется как разность между долей лиц, правильно решивших задачу, из «высокопродуктивной» и «низкопродуктивной» групп.
Психометрический парадокс — явление, возникающее при использовании опросников личностных; его сущность состоит в том, что вопросы (утверждения), имеющие высокий показатель дискриминативности (см. Дискриминативность заданий теста), являются неустойчивыми по отношению к повторяемости результата, и, наоборот, стабильность ответа часто отмечается у тех вопросов, которые обладают низкой дискриминативностью.
П. Айзенбергом (1941) было показано, что вопросы, которые позволяют отличать больных неврозом от других больных или здоровых, являются ненадежными; иначе говоря, мала вероятность получения того же самого ответа при повторном обследовании. В то же время с помощью вопросов, определяемых как надежные, различение изучаемых групп не достигалось или было неудовлетворительным. Позднее изучению этого явления, получившего название П. п., были посвящены работы Л. Голдберга (1963) и М. Новаковской (1975).
П. п. не может быть объяснен без психологического анализа процесса формирования ответов на вопросы личностных опросников. Согласно М. Новаковской, вопросы, оставаясь формально неизменными, подвержены семантическим (психологическим) преобразованиям как в плане интериндивидуальном, так и интра-индивидуальном. Интериндивидуальная изменчивость обусловлена двумя причинами: различия в выраженности измеряемой черты (свойства) у разных обследуемых и различия в понимании значения вопросов. Интраиндивидуальная изменчивость обусловлена вариабельностью значения, трудностью принятия решения об ответе и флуктуацией выраженности черты (последний источник изменчивости можно не учитывать, если интервал между повторными исследованиями невелик).
Для психологической интерпретации П. п. М. Новаковская предлагает различать три детерминанты ответов: выраженность черты у обследуемого; значение, придаваемое вопросу; степень легкости принятия решения об ответе. Она подчеркивает также необходимость отличать вопросы однозначные от многозначных, которые в известном смысле могут быть Уподоблены проективным стимулам.
М. Новаковская предлагает различать два вида П. п. — типа Л и типа В — и исходить из следующих гипотез их возникновения. Парадокс типа Л возникает при вопросах, поддающихся различному истолкованию (многозначных), а также в том случае, когда трудно принять решение об ответе. Такие вопросы имеют высокий показатель дискриминативности при значительной вариабельности ответа. Парадокс типа В возникает при однозначных вопросах, для которых легко подобрать ответ. Сюда же должны быть отнесены т. н. односторонние диагностические вопросы или те вопросы, для которых только один тип ответа является диагностически значимым. Подобные вопросы характеризуются слабой дискриминативностью и незначительно выраженной вариабельностью.
Необходимо учитывать П. п. при конструировании (адаптации) личностных опросников.
Примеры похожих учебных работ
18.Характеристика малоформализованных методов: наблюдение, беседа, интервью, анализ …
… по методу обозначающему: числовой метод графический метод шкала прилагательных графический метод дополняет числовой метод: чертят … Определена жестко заданная тактика проведения интервью, вопросы задаются в строго определенной последовательности. …
12.Понятие валидности, надежности, достоверности в психодиагностике
… тест признавался валидным. Таким образом, эмпирические методы обоснования валидности … значения. Это значение колеблется в определённых границах. Колебание данного значения … последовательность теста внутри себя, меру адекватности подбора вопросов. …
Критерии валидности, применяемые к качественным исследованиям.
… вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста … пор придают меньшее значение гуманитарному знанию …
Психодиагностические методы в психологии
… вариант дифференциации методов: Организационные методы (в эту группу входят метод наблюдения и метод эксперимента) Вспомогательные методы (сюда относят метод экспертных оценок, различные методы опроса, метод самонаблюдения, метод тестов, анализ …
[Править]Вычисление Кронбаха
Кронбаха определяется как
,
где — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента .
Альтернативный способ вычисления выглядит следующим способом:
где N — число элементов в шкале, — средняя дисперсия для выборки, — среднее значение для всех ковариаций между компонентами выборки.
В настоящее время Кронбаха считают при помощи SPSS, STATISTICA и других современных статистических пакетов, возможно и при помощи Microsoft Excel