Может ли выборочный корреляционный момент быть отрицательным. Корреляция значения. Определить силу и характер связи между

Коэффициент корреляции формула

В процессе хозяйственной деятельности человека постепенно сформировался целый класс задач по выявлению различных статистических закономерностей.

Требовалось оценивать степень детерминированности одних процессов другими, требовалось устанавливать тесноту взимозависимости между разными процессами, переменными.
Корреляция – это взаимосвязь переменных друг от друга.

Для оценки тесноты зависимости был введён коэффициент корреляции.

Физический смысл коэффициента корреляции

Чёткий физический смысл коэффициент корреляции имеет, если статистические параметры независимых переменных подчиняются нормальному распределению, графически такое распределение представляет кривую Гаусса. А зависимость линейна.

Коэффициент корреляции показывает, насколько один процесс детерминирован другим. Т.е. при изменении одного процесс как часто изменяется и зависимый процесс. Совсем не изменяется – нет зависимости, изменяется сразу каждый раз – полная зависимость.

Коэффициент корреляции может принимать значения в диапазоне [-1:1]

Нулевое значение коэффициента означает, что взаимосвязи между рассматриваемыми переменными нет.
Крайние значения диапазона означают полную зависимость между переменными.

Если значение коэффициента положительное, то зависимость прямая.

При отрицательном коэффициенте – обратная. Т.е. в первом случае при изменении аргумента функция пропорционально изменяется, во втором случае – обратно пропорционально.
При нахождении значения коэффициента корреляции в середине диапазона, т.е. от 0 до 1, либо от -1 до 0, говорят о неполной функциональной зависимости.
Чем ближе значение коэффициента к крайним показателям, тем большая взаимосвязь между переменными или случайными величинами. Чем ближе значение к 0, тем меньшая взаимозависимость.
Обычно коэффициент корреляции принимает промежуточные значения.

Коэффициент корреляции является безмерной величиной

Применяют коэффициент корреляции в статистике, в корреляционном анализе, для проверки статистических гипотез.

Выдвигая некоторую статистическую гипотезу зависимости одной случайной величины от другой – вычисляют коэффициент корреляции. По нему возможно вынести суждение — имеется ли взаимосвязь между величинами и насколько она плотная.

Дело в том, что не всегда можно увидеть взаимосвязь. Зачастую величины не связаны напрямую друг с другом, а зависят от многих факторов. Однако может оказаться, что через множество опосредованных связей случайные величины оказываются взаимозависимы. Конечно, это может не означать их непосредственную связь, так, к примеру, при исчезновении посредника может исчезнуть и зависимость.

При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке (например, между ростом и весом детей или между уровнем IQ и школьной успеваемостью) либо между двумя различными выборками (например, при сравнении пар близнецов), и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого.

Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.

До сих пор при анализе результатов нашего опыта по изучению действия марихуаны мы сознательно игнорировали такой показатель, как время реакции. Между тем было бы интересно проверить, существует ли связь между эффективностью реакций и их быстротой. Это позволило бы, например, утверждать, что чем человек медлительнее, тем точнее и эффективнее будут его действия и наоборот.

С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве - Пирсона (r) и вычисление коэффициента корреляции рангов Спирмена (r s ), который применяется к порядковым данным, т. е. является непараметрическим. Однако разберемся сначала в том, что такое коэффициент корреляции.

Коэффициент корреляции

Коэффициент корреляции - это величина, которая может варьировать в пределах от -1 до 1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных:

Переменная

В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю:

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

В гуманитарных науках корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции. Существуют таблицы с критическими значениями коэффициента корреляции Браве-Пирсона и Спирмена для разного числа степеней свободы (оно равно числу пар за вычетом 2, т. е. n -2). Лишь в том случае, если коэффициенты корреляции больше этих критических значений, они могут считаться достоверными. Так, для того чтобы коэффициент корреляции 0,70 был достоверным, в анализ должно быть взято не меньше 8 пар данных ( = п - 2 = 6) при вычислении r (табл. В.4) и 7 пар данных ( = п - 2 = 5) при вычислении r s (табл. 5 в дополнении Б. 5).

Коэффициент Браве – Пирсона

Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному):

где XY - сумма произведений данных из каждой пары;

n - число пар;

- средняя для данных переменной X ;

Средняя для данных переменной Y ;

S Х - x ;

s Y - стандартное отклонение для распределения у.

Теперь мы можем использовать этот коэффициент для того, чтобы установить, существует ли связь между временем реакции испытуемых и эффективностью их действий. Возьмем, например, фоновый уровень контрольной группы.

n = 15  15,8  13,4 = 3175,8;

(n 1)S x S y = 14  3,07  2,29 = 98,42;

r =

Отрицательное значение коэффициента корреляции может означать, что чем больше время реакции, тем ниже эффективность. Однако величина его слишком мала для того, чтобы можно было говорить о достоверной связи между этим двумя переменными.

nXY= ………

(n - 1)S X S Y = ……

Какой вывод можно сделать из этих результатов? Если вы считаете, что между переменными есть связь, то какова она - прямая или обратная? Достоверна ли она [см. табл. 4 (в дополнении Б. 5) с критическими значениями r ]?

Коэффициент корреляции рангов Спирмена r s

Этот коэффициент рассчитывать проще, однако результаты получаются менее точными, чем при использовании r. Это связано с тем, что при вычислении коэффициента Спирмена используют порядок следования данных, а не их количественные характеристики и интервалы между классами.

Дело в том, что при использовании коэффициента корреляции рангов Спирмена (r s ) проверяют только, будет ли ранжирование данных для какой-либо выборки таким же, как и в ряду других данных для этой выборки, попарно связанных с первыми (например, будут ли одинаково «ранжироваться» студенты при прохождении ими как психологии, так и математики, или даже при двух разных преподавателях психологии?). Если коэффициент близок к + 1, то это означает, что оба ряда практически совпадают, а если этот коэффициент близок к - 1, можно говорить о полной обратной зависимости.

Коэффициент r s вычисляют по формуле

где d- разность между рангами сопряженных значений признаков (независимо от ее знака), а n -число пар.

Обычно этот непараметрический тест используется в тех случаях, когда нужно сделать какие-то выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения слишком асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент r (в этих случаях бывает необходимо превратить количественные данные в порядковые).

Поскольку именно так обстоит дело с распределением значений эффективности и времени реакции в экспериментальной группе после воздействия, можно повторить расчеты, которые вы уже проделали для этой группы, только теперь не для коэффициента r , а для показателя r s . Это позволит посмотреть, насколько различаются эти два показателя*.

* Следует помнить, что

1) для числа попаданий 1-й ранг соответствует самой высокой, а 15-й-самой низкой результативности, тогда как для времени реакции 1-й ранг соответствует самому короткому времени, а 15-й-самому долгому;

2) данным ex aequo придается средний ранг.

Таким образом, как и в случае коэффициента r, получен положительный, хотя и недостоверный, результат. Какой же из двух результатов правдоподобнее: r = -0,48 или r s = +0,24? Такой вопрос может встать лишь в том случае, если результаты достоверны.

Хотелось бы еще раз подчеркнуть, что сущность этих двух коэффициентов несколько различна. Отрицательный коэффициент r указывает на то, что эффективность чаще всего тем выше, чем время реакции меньше, тогда как при вычислении коэффициента r s требовалось проверить, всегда ли более быстрые испытуемые реагируют более точно, а более медленные - менее точно.

Поскольку в экспериментальной группе после воздействия был получен коэффициент r s , равный 0,24, подобная тенденция здесь, очевидно, не прослеживается. Попробуйте самостоятельно разобраться в данных для контрольной группы после воздействия, зная, что d 2 = 122,5:

; достоверно ли?

Каков ваш вывод?………………………………… ……………………………………………………………

…………………………………………………………………………………………………………………….

Итак, мы рассмотрели различные параметрические и непараметрические статистические методы, используемые в психологии. Наш обзор был весьма поверхностным, и главная задача его заключалась в том, чтобы читатель понял, что статистика не так страшна, как кажется, и требует в основном здравого смысла. Напоминаем, что данные «опыта», с которыми мы здесь имели дело, - вымышленные и не могут служить основанием для каких-либо выводов. Впрочем, подобный эксперимент стоило бы действительно провести. Поскольку для этого опыта была выбрана сугубо классическая методика, такой же статистический анализ можно было бы использовать во множестве различных экспериментов. В любом случае нам кажется, что мы наметили какие-то главные направления, которые могут оказаться полезны тем, кто не знает, с чего начать статистический анализ полученных результатов.

Существуют три главных раздела статистики: описательная статистика, индуктивная статистика и корреляционный анализ.

7.3.1. Коэффициенты корреляции и детерминации. Можно количественно определить тесноту связи между факторами и ее направленность (прямую или обратную), вычислив:

1) если нужно определить носящую линейный характер взаимосвязь между двумя факторами, - парный коэффициент корреляции : в 7.3.2 и 7.3.3 рассмотрены операции вычисления парного линейного коэффициента корреляции по Бравэ–Пирсону (r ) и парного рангового коэффициента корреляции по Спирмену (r );

2) если мы хотим определить взаимосвязь между двумя факторами, но зависимость эта явно нелинейная - то корреляционное отношение ;

3) если мы хотим, определить связь между одним фактором и некоторой совокупностью других факторов - то (или, что то же самое, «коэффициент множественной корреляции»);

4) если мы хотим выявить изолированно связь одного фактора только с конкретным другим, входящим в группу факторов, воздействующих на первый, для чего приходится считать влияние всех остальных факторов неизменным - то частный (парциальный) коэффициент корреляции .

Любой коэффициент корреляции (r, r) не может по абсолютной величине превышать 1, то есть –1 < r (r) < 1). Если получено значение 1, то это значит, что рассматриваемая зависимость не статистическая, а функциональная, если 0 - корреляции нет вообще.

Знак при коэффициенте корреляции определяет направ­ленность связи: знак «+» (либо отсутствие знака) означает, что связь прямая (положительная ), знак «–» - что связь обратная (отрицательная ). К тесноте связи знак никакого отношения не имеет

Коэффициент корреляции характеризует статистическую взаимосвязь. Но часто нужно определить другого типа зависимость, а именно: каков вклад некоторого фактора в формирование другого связанного с ним фактора. Такого рода зависимость с некоторой долей условности характеризуется коэффициентом детерминации (D ), определяемым по формуле D = r 2 ´100% (где r - коэффициент корреляции по Бравэ–Пирсону, см. 7.3.2). Если измерения проводились в шкале порядка (шкале рангов) , то с некоторым ущербом для достоверности можно вместо значения r подставить в формулу значение r (коэффициента корреляции по Спирмену, см. 7.3.3).

Например, если мы получили как характеристику зависимости фактора Б от фактора А коэффициент корреляции r = 0,8 или r = –0,8, то D = 0,8 2 ´100% = 64%, то есть около 2½ 3. Следовательно, вклад фактора А и его изменений в формирование фактора Б составляет примерно 2½ 3 от суммарного вклада всех вообще факторов.

7.3.2. Коэффициент корреляции по Бравэ-Пирсону. Процедуру вычисления коэффициента корреляции по Бравэ–Пирсону (r ) можно применять только в тех случаях, когда связь рассматривается на базе выборок, имеющих нормальное распределение частот (нормальное распределение ) и полученных измерениями в шкалах интервалов или отношений. Расчетная формула этого коэффициента корреляции:



å (x i – )(y i – )

r = .

n×s x ×s y

Что показывает коэффициент корреляции? Во-первых, знак при коэффициенте корреляции показывает направленность связи, а именно: знак «–» свидетельствует о том, что связь обратная , или отрицательная (имеет место тенденция: с убыванием значений одного фактора соответствующие значения другого фактора растут, а с возрастанием - убывают), а отсутствие знака или знак «+» свидетельствуют о прямой , или положительной связи (имеет место тенденция: с увеличением значений одного фактора увеличиваются и значения другого, а с уменьшением - уменьшаются). Во-вторых, абсолютная (не зависящая от знака) величина коэффициента корреляции говорит о тесноте (силе) связи. Принято считать (в достаточной мере условно): при значениях r < 0,3 корреляция очень слабая , нередко ее просто не принимают в расчет, при 0,3 £ r < 5 корреляция слабая , при 0,5 £ r < 0,7) - средняя , при 0,7 £ r £ 0,9) - сильная и, наконец, при r > 0,9 - очень сильная. В нашем случае (r » 0,83) связь обратная (отрицательная) и сильная.

Напомним: значения коэффициента корреляции могут находиться в интервале от –1 до +1. Выход значения r за эти пределы свидетельствует о том, что в расчетах допущена ошибка . Если r = 1, то это значит, что связь не статистическая, а функциональная - чего в спорте, биологии, медицине практически не бывает. Хотя при небольшом количестве измерений случай ный подбор значений, дающий картину функциональной связи, возможен, но такой случай тем менее вероятен, чем больше объем сопоставляемых выборок (n), то есть количество пар сравниваемых измерений.

Расчетная таблица (табл. 7,1)строится соответственно формуле.

Таблица 7.1.

Расчетная таблица для вычисления по Бравэ–Пирсону

x i y i (x i – ) (x i – ) 2 (y i – ) (y i – ) 2 (x i – )(y i – )
13,2 4,75 0,2 0,04 –0,35 0,1225 – 0,07
13,5 4,7 0,5 0,25 – 0,40 0,1600 – 0,20
12,7 5,10 – 0,3 0,09 0,00 0,0000 0,00
12,5 5,40 – 0,5 0,25 0,30 0,0900 – 0,15
13,0 5,10 0,0 0,00 0,00 0.0000 0,00
13,2 5,00 0,1 0,01 – 0,10 0,0100 – 0,02
13,1 5,00 0,1 0,01 – 0,10 0,0100 – 0,01
13,4 4,65 0,4 0,16 – 0,45 0,2025 – 0,18
12,4 5,60 – 0,6 0,36 0,50 0,2500 – 0,30
12,3 5,50 – 0,7 0,49 0,40 0,1600 – 0,28
12,7 5,20 –0,3 0,09 0,10 0,0100 – 0,03
åx i =137 =13,00 åy i =56,1 =5,1 å(x i – ) 2 = =1,78 å(y i – ) 2 = = 1,015 å(x i – )(y i – )= = –1,24

Поскольку s х = ï ï = ï ï» 0,42, а

s y =ï ï» 0,32, r » –1,24ï (11´0,42´0,32)» –1,24ï 1,48 » –0,83 .

Иными словами, нужно очень твердо знать, что коэффициент корреляции не может по абсолютной величине превосходить 1,0. Это нередко позволяет избежать грубейших ошибок, точнее - найти и исправить допущенные при подсчетах ошибки.

7.3.3. Коэффициент корреляции по Спирмену . Как уже было сказано, применять коэффициент корреляции по Бравэ–Пирсону (r) можно только в тех случаях, когда анализируемые факторы по распределению частот близки к нормальному и значения вариант получены измерениями обязательно в шкале отношений или в шкале интервалов, что бывает, если они выражены физическими единицами. В остальных случаях находят коэффициент корреляции по Спирмену (r ). Впрочем, этот коэффициент можно применять и в случаях, когда разрешено (и желательно! ) применять коэффициент корреляции по Бравэ-Пирсону. Но следует иметь в виду, что процедура определения коэффициента по Бравэ-Пирсону обладает большей мощностью («разрешающей способностью »), поэтому r более информативен, чем r . Даже при большом n отклонение r может быть порядка ±10%.

Таблица 7.2 Расчетная формула коэффици-

x i y i R x R y |d R | d R 2 ента корреляции по Спирмену

13,2 4,75 8,5 3,0 5,5 30,25 r = 1 – . Вос

13,5 4,70 11,0 2,0 9,0 81,00 пользуемся нашим примером

12,7 5,10 4,5 6,5 2,0 4,00 для расчета r , но построим

12,5 5,40 3,0 9,0 6,0 36,00 иную таблицу (табл.7.2).

13,0 5,10 6,0 6,5 0,5 0,25 Подставим значения:

13,2 5,00 8,5 4,5 4,0 16,00 r = 1– =

13,1 5,00 7,0 4,5 2,5 6,25 =1– 2538:1320 » 1–1,9 » – 0,9.

13,4 4,65 10,0 1,0 9,0 81,00 Мы видим: r оказался немного

12,4 5,60 2,0 11,0 9,0 81,00 больше, чем r , но это разли-

12,3 5,50 1,0 10,0 9,0 81,00 чие не очень велико. Ведь при

12,7 5,20 4,5 8,0 3,5 12,25 таком малом n значения r и r

åd R 2 = 423 очень уж приблизительны, мало достоверны, их действительное значение может колебаться в широких пределах, поэтому различие r иr в 0,1 малосущественно. Обычно r рассматривают как аналог r , но только менее точный . Знаки при r и r показывает направленность связи.

7.3.4. Применение и проверка достоверности коэффициентов корреляции. Определение степени корреляционной зависимости между факторами необходимо для управления развитием нужного нам фактора: для этого приходится влиять на другие факторы, существенно влияющие на него, и нужно знать меру их действенности. Знать про взаимосвязь факторов нужно для разработки или выбора готовых тестов: информативность теста определяется корреляцией его результатов с проявле­ниями интересующего нас признака или свойства. Без знания корреляций невозможны любые формы отбора.

Выше было отмечено, что в спортивной и вообще педагогической, медицинской и даже экономической и социологической практике большой интерес представляет определение того вклада , который один фактор вносит в формирование другого . Это связано с тем, что помимо рассматриваемого фактора-причины на целевой (интересующий нас) фактор действуют, давая каждый тот или иной вклад в него, и другие.

Считается, что мерой вклада каждого фактора-причины может служить коэффициент детерминации D i = r 2 ´100%. Так, например, если r = 0,6, т.е. связь между факторами А и Б средняя, то D = 0,6 2 ´100% = 36%. Зная, таким образом, что вклад фактора А в формирование фактора Б приблизительно 1½ 3, можно, например уделять целенаправленному развитию этого фактора приблизительно 1½ 3 тренировочного времени. Если же коэффициент корреляции r = 0,4 , то D = r 2 100% =16%, или примерно 1½ 6 - в два с лишним раза меньше, и уделять его развитию по этой логике следует соответственно лишь 1½ 6 часть тренировочного времени.

Величины D i для разных существенных факторов дают приблизительное представление о количественном взаимоот­ношении их влияний на интересующий нас целевой фактор, ради совершенствования которого мы, собственно, и работаем над другими факторами (например, прыгун в длину с разбега работает над повышением скорости своего спринтерского бега, так как оно является тем фактором, который дает самый значительный вклад в формирование результата в прыжках).

Напомним, что определяя D можно вместо r поставить r , хотя, конечно, точность определения оказывается ниже.

На основе выборочного (рассчитанного по выборочным данным) коэффициента корреляции нельзя делать вывод о достоверности факта наличия связи между рассматриваемыми факторами вообще. Для того, чтобы сделать такой вывод с той или иной степенью обоснованности, используют стандартные критерии значимости корреляции . Их применение предполагает линейную зависимость между факторами и нормальное распределение частот в каждом из них (имея в виду не выборочное, а генеральное их представление).

Можно, например, применить t-критерии Стьюдента. Его рас-

четная формула: t p = –2 , где k - исследуемый выборочный коэффициент корреляции, a n - объем сопоставляемых выборок. Полученное расчетное значение t-критерия (t р)сравнивают с табличным при выбранном нами уровне значимости и числе степеней свободы n = n – 2. Чтобы избавиться от расчетной работы, можно воспользоваться специальной таблицей критических значений выборочных коэффициентов корреляции (см. выше), соответствующих наличию достоверной связи между факторами (с учетом n и a ).

Таблица 7.3.

Граничные значений достоверности выборочного коэффициента корреляции

Число степеней свободы при определении коэффициентов корреляции принимают равным 2 (т.е. n = 2) Указанные в табл. 7.3 значения имеют нижней границей доверительного интервала истинного коэффициента корреляции 0, то есть при таких значениях нельзя утверждать, что корреляция вообще имеет место. При значении выборочного коэффициента корреляции выше указанного в таблице можно при соответствующем уровне значимости считать, что истинный коэффициент корреляции не равен нулю.

Но ответ на вопрос, есть ли реальная связь между рассматриваемыми факторами, оставляет место для другого вопроса: в каком интервале лежит истинное значение коэффициента корреляции, каким он может быть на самом деле, при бесконечно большом n ? Этот интервал для любого конкретного значения r и n сопоставляемых факторов можно рассчитать, но удобнее пользоваться системой графиков (номограммой ), где каждая пара кривых, построенная для не которого указанного над ними n , соответствует границам интервала.

Рис. 7.4. Доверительные границы выборочного коэффициента корреляции (a = 0,05). Каждая кривая соответствует указанному над ней n .

Обратясь к номограмме на рис. 7.4, можно определить интервал значений истинного коэффициента корреляции для вычисленных значений выборочного коэффициента корреляции при a = 0,05.

7.3.5. Корреляционные отношения. Если парная корреляция нелинейна , нельзя вычислять коэффициент корреляции, определяют корреляционные отношения . Обязательное требование: признаки должны быть измерены в шкале отношений или в шкале интервалов. Можно вычислять корреляционную зависимость фактора X от фактора Y и корреляционную зависимость фактора Y от фактора X - они различаются. При небольшом объеме n рассматриваемых выборок, представляющих факторы, для вычисления корреляционных отношений можно пользоваться формулами:

корреляционное отношение h x ½ y = ;

корреляционное отношение h y ½ x = .

Здесь и - средние арифметические выборок X и Y, и - внутриклассовые средние арифметические. Tо есть - среднее арифметическое тех значений в выборке фактора Х, с которыми сопряжены одинаковые значения в выборке фактора Y (например, если в факторе X имеются значения 4, 6, и 5, с которыми в выборке фактора Y сопряжены 3 варианты с одинаковым значением 9, то = (4+6+5)½ 3 = 5). Соответственно - среднее арифметическое тех значений в выборке фактора Y, с которыми сопряжены одинаковые значения в выборке фактора Х. Приведем пример и проведем расчет:

Х: 75 77 78 76 80 79 83 82 ; Y: 42 42 43 43 43 44 44 45 .

Таблица 7.4

Расчетная таблица

х i y i x y х i – х (х i – х ) 2 х i – х y (x i x y ) 2
–4 –1
–2
–3 –2
–1
–3
x=79 y=43 S=76 S=28

Следовательно, h y ½ x = » 0,63.

7.3.6. Частные и множественный коэффициенты корреляции. Чтобы оценить зависимость между 2-мя факторами, вычисляя коэффициенты корреляции, мы как бы по умолчанию предполагаем, что никакие другие факторы на эту зависимость никакого воздействия не оказывают. В реальности дело обстоит не так. Так, на зависимость между весом и ростом очень существенно влияют калорийность питания, величина систематической физической нагрузки, наследственность и др. Когда нужно при оценке связи между 2-мя факторами учесть существенное влияние других факторов и в то же время как бы изолироваться от них, считая их неизменными , вычисляют частные (иначе - парциальные ) коэффициенты корреляции.

Пример: нужно оценить парные зависимости между 3-мя существенно действующими факторами X, Y и Z. Обозначим r XY (Z) частный (парциальный) коэффициент корреляции между факторами X и Y (при этом величину фактора Z считаем неизменной), r ZX (Y) - частный коэффициент корреляции между факторами Z и X (при неизменном значении фактора Y), r YZ (X) - частный коэффициент корреляции между факторами Y и Z (при неизменном значении фактора X). Используя вычисленные простые парные (по Бравэ-Пирсону) коэффициенты корреляции r XY , r XZ и r YZ , м

ожно вычислить частные (парциальные) коэффициенты корреляции по формулам:

r XY – r XZ ´r YZ r XZ – r XY ´r ZY r ZY –r ZX ´r YZ

r XY (Z) = ; r XZ (Y) = ; r ZY (Х) =

Ö(1–r 2 XZ)(1–r 2 YZ) Ö(1– r 2 XY)(1–r 2 ZY) Ö(1–r 2 ZX)(1–r 2 YX)

И частные коэффициенты корреляции могут принимать значения от –1 до +1. Возведя их в квадрат, получают соответствующие частные коэффициенты детерминации , называемые также частными мерами определенности (умножив на 100, выразим в %%). Частные коэффициенты корреляции больше или меньше отличаются от простых (полных) парных коэффициентов, что зависит от силы влияния на них 3-го фактора (как бы неизменного). Нулевая гипотеза (Н 0), то есть гипотеза об отсутствии связи (зависимости) между факторами X и Y, проверяется (при общем количество признаков k ) вычислением t-критерия по формуле: t Р = r XY (Z) ´ (n –k) 1 ½ 2 ´ (1–r 2 XY (Z)) –1 ½ 2 .

Если t Р < t a n , гипотеза принимается (считаем, что зависимости нет), если же t Р ³ t a n - гипотеза опровергается, то есть считается, что зависимость действительно имеет место. t a n берется по таблице t -критерия Стьюдента, причем k - количество учитываемых факторов (в нашем примере 3), число степеней свободы n = n – 3. Другие частные коэффициенты корреляции проверяют аналогично (в формулу вместо r XY (Z) подставляют соответственно r XZ (Y) или r ZY (X)).

Таблица 7.5

Исходные данные

Ö (1 – 0,71 2)(1 – 0,71 2) Ö (1 – 0,5)(1 – 0,5)

Для оценки зависимости фактора Х от совместного действия нескольких факторов (здесь факторы Y и Z), вычисляют значения простых парных коэффициентов корреляции и, используя их, вычисляют множественный коэффициент корреляции r X (YZ) :

Ö r 2 XY + r 2 XZ – 2r XY ´ r XZ ´ r YZ

r X (YZ) = .

Ö 1 – r 2 YZ

7.2.7. Коэффициент ассоциации. Нередко требуется количественно оценить зависимость между качественными признаками, т.е. такими признаками, которые нельзя представить (охарактеризовать) количественно, которые неизмеримы . Например, стоит задача выяснить, существует ли зависимость между спортивной специализацией занимающихся и такими личностными свойствами, как интравертность (направленность личности на явления собственного субъективного мира) и экстравертность (направленность личности на мир внешних объектов). Условные обозначения представим в табл. 7.6.

Таблица 7.6.

X (лет) Y (раз) Z (раз) X (лет) Y (раз) Z (раз)
Признак 1 Признак 2 Интравертность Экстравертность
Спортивные игры а b
Гимнастика с d

Очевидно, что числами, имеющимися в нашем распоряжении, здесь могут быть только частоты распределений. В таком случае вычисляют коэффициент ассоциации (другое название «коэффициент сопряженности »). Рассмотрим простейший случай: связь между двумя парами признаков, при этом вычисленный коэффициент сопряженности называют тетрахорическим (см. табл.).

Таблица 7.7.

а =20 b = 15 a + b = 35
с =15 d = 5 c + d = 20
a + c = 35 b + d = 20 n = 55

Вычисления производим по формуле:

ad – bc 100 – 225 –123

Вычисление коэффициентов ассоциации (коэффициентов сопряжения) при большем количестве признаков связано с расчетами по аналогичной матрице соответствующего порядка.

Коэффициент корреляции

Корреля́ция - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции .

Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин). Отрицательная корреляция - корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция - корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.

Автокорреляция - статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса - со сдвигом по времени.

Пусть X ,Y - две случайные величины, определённые на одном вероятностном пространстве . Тогда их коэффициент корреляции задаётся формулой:

,

где cov обозначает ковариацию , а D - дисперсию , или, что то же самое,

,

где символ обозначает математическое ожидание .

Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы , к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).

Коэффициент корреляции Кенделла

Используется для измерения взаимной неупорядоченности.

Коэффициент корреляции Спирмена

Свойства коэффициента корреляции

если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши - Буняковского будет: . , где . Более того в этом случае знаки и k совпадают: .

Корреляционный анализ

Корреляционный анализ - метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции ) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют . В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная , если одна переменная растёт, а вторая уменьшается, корреляция отрицательная .

Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = s i n (x ) и B = c o s (x ) , то он будет близок к нулю, т. е. зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону s i n 2 (x ) + c o s 2 (x ) = 1 .

Ограничения корреляционного анализа

Графики распределений пар (x,y) с соответствующими коэффициентами корреляций x и y для каждого из них. Обратите внимание, что коэффициент корреляции отражает линейную зависимость (верхняя строка), но не описывает кривую зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).

  1. Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.
  2. Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных . Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейна (выражена, например, в виде параболы).
  3. Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора.

Область применения

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение , агрохимия , гидробиология , биометрия и прочие.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Ложная корреляция

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

В современной количественной методологии социальных наук , фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.

См. также

Wikimedia Foundation . 2010 .

Смотреть что такое "Коэффициент корреляции" в других словарях:

    Коэффициент корреляции - Математическое представление о степени связи между двумя сериями измерений. Коэффициент +1 обозначает четкую позитивную корреляцию: высокие показатели по одному параметру (например, рост) точно соотносятся с высокими показателями по другому… … Большая психологическая энциклопедия

    - ρ μера силы линейной связи между случайными величинами X и У: , где ЕХ математическое ожидание X; DX дисперсия X, EY математическое ожидание У; DY дисперсия У; 1 ≤ ρ ≤ 1. Если X, Y линейно связаны, то ρ = ± 1. Для… … Геологическая энциклопедия

    Англ. coefficient, correlation; нем. Korrelationskoeffizient. Мера тесноты связи двух или более переменных. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии

    коэффициент корреляции - — Тематики биотехнологии EN correlation coefficient … Справочник технического переводчика

    Коэффициент корреляции - (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… … Энциклопедия инвестора

    коэффициент корреляции - 1.33. коэффициент корреляции Отношение ковариации двух случайных величин к произведению их стандартных отклонений: Примечания 1. Эта величина всегда будет принимать значения от минус 1 до плюс 1, включая крайние значения. 2. Если две случайные… … Словарь-справочник терминов нормативно-технической документации

    КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ - (correlation coefficient) мера ассоциации одной переменной с другой. См. Корреляция; Коэффициент корреляции производного значения Пирсона; Коэффициент ранговой корреляции спирмена … Большой толковый социологический словарь

    Коэффициент корреляции - CORRELATION COEFFICIENT Показатель степени линейной зависимости между двумя переменными величинами: Коэффициент корреляции может изменяться в пределах от 1 до 1. Если большим значениям одной величины соответствуют большие значения другой (и… … Словарь-справочник по экономике

Этап 3. Нахождение взаимосвязи между данными

Линейная корреляция

Последний этап задачи изучения связей между явлениями – оценка тесноты связи по показателям корреляционной связи. Этот этап очень важен для выявления зависимостей между факторными и результативными признаками, а следовательно, для возможности осуществления диагноза и прогноза изучаемого явления.

Диагноз (от греч. diagnosis распознавание) – определение существа и особенностей состояния какого-либо объекта или явления на основе его всестороннего исследования.

Прогноз (от греч. prognosis предвидение, предсказание) – всякое конкретное предсказание, суждение о состоянии какого-либо явления в будущем (прогноз погоды, исхода выборов и т.п.). Прогноз – это научно обоснованная гипотеза о вероятном будущем состоянии изучаемой системы, объекта или явления и характеризующие это состояние показатели. Прогнозирование – разработка прогноза, специальные научные исследования конкретных перспектив развития какого-либо явления.

Вспомним определение корреляции:

Корреляция – зависимость между случайными величинами, выражающаяся в том, что распределение одной величины зависит от значения другой величины.

Корреляционная связь наблюдается не только между количественными, но и качественными признаками. Существуют различные способы и показатели оценки тесноты связей. Мы остановимся лишь на линейном коэффициенте парной корреляции , который используется при наличии линейной связи между случайными величинами. На практике часто возникает необходимость определить уровень связи между случайными величинами неодинаковой размерности, поэтому желательно располагать какой-то безразмерной характеристикой этой связи. Такой характеристикой (мерой связи) является коэффициент линейной корреляции r xy , который определяется по формуле

где , .

Обозначив и , можно получить следующее выражение для расчета коэффициента корреляции

.

Если ввести понятие нормированного отклонения , которое выражает отклонение коррелируемых значений от среднего в долях среднего квадратического отклонения:



то выражение для коэффициента корреляции примет вид

.

Если производить расчет коэффициента корреляции по итоговым значениям исходных случайных величин из расчетной таблицы, то коэффициент корреляции можно вычислить по формуле

.

Свойства коэффициента линейной корреляции:

1). Коэффициент корреляции – безразмерная величина.

2). |r | £ 1 или .

3). , a,b = const, – величина коэффициента корреляции не изменится, если все значения случайных величин X и Y умножить (или разделить) на константу.

4). , a,b = const, – величина коэффициента корреляции не изменится, если все значения случайных величин X и Y увеличить (или уменьшить) на константу.

5). Между коэффициентом корреляции и коэффициентом регрессии существует связь:

Интерпретировать значения коэффициентов корреляции можно следующим образом:

Количественные критерии оценки тесноты связи:

В прогностических целях обычно используют величины с |r| > 0.7.

Коэффициент корреляции позволяет сделать вывод о существовании линейной зависимости между двумя случайными величинами, но не указывает, какая из величин обуславливает изменение другой. В действительности связь между двумя случайными величинами может существовать и без причинно-следственной связи между самими величинами, т.к. изменение обеих случайных величин может быть вызвано изменением (влиянием) третьей.

Коэффициент корреляции r xy является симметричным по отношению к рассматриваемым случайным величинам X и Y . Это означает, что для определения коэффициента корреляции совершенно безразлично, какая из величин является независимой, а какая – зависимой.

Значимость коэффициента корреляции

Даже для независимых величин коэффициент корреляции может оказаться отличным от нуля вследствие случайного рассеяния результатов измерений или вследствие небольшой выборки случайных величин. Поэтому следует проверять значимость коэффициента корреляции.

Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента :

.

Если t > t кр (P, n -2), то линейный коэффициент корреляции значим, а следовательно, значима и статистическая связь X и Y .

.

Для удобства вычислений созданы таблицы значений доверительных границ коэффициентов корреляции для различного числа степеней свободы f = n –2 (двусторонний критерий) и различных уровней значимости a = 0,1; 0,05; 0,01 и 0,001. Считается, что корреляция значима, если рассчитанный коэффициент корреляции превосходит значение доверительной границы коэффициента корреляции для заданных f и a .

Для больших n и a = 0,01 значение доверительной границы коэффициента корреляции можно вычислить по приближенной формуле

.