Линейная регрессия. Свойства коэффициента линейной корреляции. Метод наименьших квадратов

Виды зависимости между случайными величинами. Линейная регрессия
1. Функциональная – если каждому значению х соответствует единственное значение y.
2. Статистическая – если каждому значению х соответствует целый ряд распределения значения y (и наоборот). Такая зависимость задается корреляционной таблицей 1.
3. Корреляционная – это функциональная зависимость между значениями одной случайной величины и условными математическими ожиданиями другой случайной величины. Корреляционная зависимость выражается уравнениями регрессии.
Частота или мера корреляционной зависимости определяется корреляционным моментом.
Корреляционный момент это:

Если случайны величины Х и Y независимы, то корреляционный момент равен 0. обратное неверно.
Если , то случайные величины называются не корреляционными.
Линейная регрессия.
Если уравнение регрессии является линейным, то говорят, что между x и y существует линейная корреляционная зависимость.
Линейная корреляционная зависимость задается следующими уравнениями зависимости:
(I) — I линейное уравнение регрессии y по х;
(II) — II линейное уравнение регрессии х по y;
Как правило параметры a, b, c, d неизвестны.
Чтобы их найти организуют случайную выборку и по результатам этой выборки методом наименьших квадратов определяют параметры a, b, c, d.
Мерой тесноты линейной корреляционной зависимости является коэффициент линейной корреляции.

По результатам выборки неизвестные характеристики генеральной совокупности заменяются их выборочными оценками.
μ – выборочный корреляционный момент

— выборочный коэффициент линейной корреляции;
— групповые средние y по x, т.е. средние значения y вычисленные при фиксированном значении x;
— групповые средние x по y, т.е. средние значения x вычисленные при фиксированном значении y;
Свойства коэффициента линейной корреляции.
1. r служит для определения тесноты линейной корреляционной зависимости;
2. r принимает значения от ;
3. если r = 0, то между х и y не существует линейной корреляционной зависимости (но может быть не линейная);
4. чем ближе модуль r к 1, тем теснее линейная корреляционная связь;
5. если
6. если , то между х и y возникает функциональная зависимость. Обе прямые регрессии совпадают;
7. значение r совпадает со знаком μ (см. ф-лу 11);
Если , то между х и y существует прямая корреляционная зависимость, т.е. с ростом одной переменной другая, в среднем, тоже возрастает.
Если , то между х и y существует обратная корреляционная зависимость, т.е. с ростом значений одной переменной, другая, в среднем, убывает.

Нахождение параметров линейных уравнений регрессии методом наименьших квадратов.
После того, как сделана выборка, в линейных уравнениях регрессии I и II условные математические ожидания заменяются их оценками – групповыми средними. Тогда уравнения регрессии принимают следующий вид:

Метод наименьших квадратов состоит в том, что неизвестные параметры a и b – I, c, d – II находятся из принципа минимизации суммы квадратов расстояний от опытных точек, полученных по выборке, до теоретических точек, полученных соответственно по уравнениям I и II.
Для нахождения min указанной суммы, находятся частный производные и приравниваются к 0. Получается сумма уравнений, которые называются нормальными системами:

Коэффициент а в уравнении регрессии I называют коэффициентом регрессии y по x и обозначается:

Тогда уравнение регрессии I приобретает вид:

В дальнейшем для удобства обозначается y и уравнение I приобретает вид:

II аналогично с помощью M и K составляем систему нормальных уравнений для нахождения параметров c и d.
Коэффициент с обозначением называется коэффициентом регрессии x по y.
(13)
Тогда уравнение регрессии II приобретает вид:

В дальнейшем для удобства обозначается y и уравнение II приобретает вид:

Свойства коэффициентов регрессии.
1. коэффициенты регрессии имеют одинаковый знак , совпадающий со знаком μ;
2. коэффициенты регрессии являются угловыми коэффициентами для соответствующих прямых I и II относительно соответствующих осей, поэтому, если μ > 0 и коэффициент регрессии отрицателен, то обе прямые наклонены налево.

Замечание: Прямые регрессии пересекаются в точке А с координатами .
Связь между коэффициентами корреляции и коэффициентами регрессии.
Сравнивая формулы 11, 12 и 13 получаем, что
, где значение r выбирается так, чтобы он совпадал со знаком μ.
Проверка значимости коэффициента корреляции.
Выдвигается гипотеза Н0, которая заключается в том, что между переменными х и y во всей генеральной совокупности не существует линейной корреляции не существует линейной корреляционной зависимости.
Коэффициент линейной корреляции R равен 0, а его оценка r не равна 0 только потому что вместо всей генеральной совокупности рассматривается выборка. Фактически по выборке ни о чем не говорит. Значение r не равное 0 не значимо. Т.е. проверяется гипотеза Н0: R = 0, линейной корреляционной связи нет. Для проверки этой гипотезы применяется t-критерий Стьюдента, статистика которого вычисляется по формуле:
(15)
Эта статистика затабулирована в учебнике.
Критическое значение определяется 2-мя параметрами:
1 – α, где α – уровень значимости;
n – объем выборки;
Опытное, или эмпирическое, значение t определяется по формуле 15. Если t больше tкритич. , то гипотеза Н0 отвергается, т.е. значение значимо, между х и y существует линейная корреляционная зависимость.
Пример № 3:
10 участков земли обследуются с целью определения взаимосвязи между урожайностью Y и количеством внесенных удобрений Х. данные приведены в таблице. Предполагаем, что между переменными х и y существует корреляционная зависимость. Выполнить следующие задания:
1) Вычислить групповые средние для х и для y и изобразить их на корреляционном поле, построив эмпирические линии регрессии;
2) Написать уравнения регрессии х по y и y по x и построить их графики на том же чертеже.
3) Вычислить коэффициент корреляции r и проверить его значимость при α = 0,05. сделать выводы о тесноте и направлении корреляционной связи.
4) Используя соответствующие уравнения регрессии вычислить среднюю урожайность когда количество удобрений равно 10 кг и сравнить с соответствующей средней.
б) групповые средние x по y:

Предварительный анализ: по групповым средним построены эмпирические линии регрессии, точки которых образуют так называемое корреляционное поле. По результатам выборки можно предварительно заключить, что связь между переменными х и y прямая, т.е. с ростом значений одной переменной, групповые средние для другой переменной возрастают. Т.к. линии расположены близко друг к другу, можно предположить, что связь между х и y достаточно тесная.
2) для уравнений регрессии нужно вычислить:

3) коэффициент линейной корреляции r можно вычислить по 2-м формулам:

Вывод:
1) т.к. , то между переменными х и y существует прямая зависимость, т.е. с ростом одной переменной, другая в среднем возрастает;
2) т.к. , то связь между х и y – тесная;
3) т.к. коэффициенты регрессии > 0, то обе прямые наклонены направо;
4) т.к. связь тесная, то угол между прямыми маленький, прямые близко расположены друг к другу;
Проверка значимости коэффициента корреляции.

Т.к. , то коэффициент корреляции r значим, между урожайностью и количеством удобрений существует тесная корреляционная зависимость;
4) Дано: Х = 10 – аргумент.
Выберем то уравнение регрессии, в котором х является аргументом. Это уравнение I. Подставляем туда 10 и получаем.

Такой будет средняя урожайность при 10 кг удобрений.
значит модель адекватна действительности.

Замечания:
1. по уравнениям регрессии I и II можно делать прогнозы, однако эти прогнозы адекватны реальности (соответствуют действительности) только вблизи центра корреляционного поля (точки );
2. если предположить, что между х и y существует не линейная корреляционная зависимость, т.е. уравнения I и II не линейные, то их неизвестные параметры тоже можно найти методом наименьших квадратов.

Оцените статью