Задачи регрессионного анализа
Регрессия -- зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин.
Задача регрессионного анализа заключается в восстановлении функциональной зависимости y(x) по результатам измерений.
В регрессионном анализе предполагается, что можно прямо или косвенно контролировать одну или нескольких переменных x1 , x2….xn, и их значение вместе с множеством параметров Q1,Q2….Qn определяющие математическое ожидание зависимой переменной i . Задача состоит в вычислении оценок параметров с помощью выборочных данных.
Постулаты регрессионного анализа:
1 постулат: Параметр оптимизации y есть случайная величина с нормальным законом распределения.
Дисперсия воспроизводимости - одна из характеристик этого закона распределения.
- 2 постулат: Дисперсия y не зависит от абсолютной величины y.
- 3 постулат: Значения факторов суть неслучайной величины.
Метод наименьших квадратов
Этот метод был развит усилиями Лежандра и Гаусса, более 150 лет назад. Метод наименьших квадратов (МНК) является самым распространенным, хотя не единственным метом усреднения.
Если дано у=b0+b1*x1 - уравнение прямой линии. Надо вычислить коэффициенты b0,b1.
Для этого уравнение приравнивается к нулю yi - b0-b1*x1*xi=0, где i=1,2,…N (N-номер опыта) или yi - b0-b1*x1*xi=Еi, где Еi - невязка, то есть разность между экспериментальным и вычисленным по уравнению регрессии значениям у в i-й экспериментальной точке. Невязка возникает по двум причинам: из-за ошибки эксперимента и из-за модели.
Надо найти коэффициенты регрессии, при которых невязка будет минимальной:
U= Е2i=min, который приводит к методу наименьших квадратов.
МНК обладает следующим свойством: он делает определенной любую произвольную систему уравнений равную числу неизвестных коэффициентов. Для определения двух неизвестных коэффициентов требуется два уравнения, например, для уравнения y= a0+a1*x, с двумя неизвестными коэффициентами используется система уравнений:
a0*N +ai xi= yi
a0 xi + ai x2 i = xi*yi
Для определения трех неизвестных коэффициентов требуется три уравнения, например, для уравнения y = a0+a1*x+ a*x2 , с тремя неизвестными коэффициентами используется система уравнений:
a0*N +ai xi+а2 x2 i = yi
a0 xi + ai x2 i +a2 x3 i = xi*yi
a0 x2 i + ai x3 i +a2 x4 i = x2i*yi
МНК для обратной зависимости
y= a0+a1/x.
Чтобы найти два неизвестных коэффициента используется система уравнении:
a0*N +ai 1/xi= yi
a0 1/xi + ai 1/x2 i =yi/хi
Порядок расчета задач методом наименьших квадратов:
Строится таблица (таблица 1)
Таблица 1 Пример, построения таблицы для данных задачи МНК
N |
xi |
y1i |
… |
ymi |
yi |
S2{y} |
yi |
E,% |
1 |
х1 |
|||||||
2 |
х2 |
|||||||
3 |
х3 |
|||||||
4 |
х4 |
|||||||
… |
… |
|||||||
N |
хN |
где xi- входные величины,
уi- выходные величины,
N - количество уровней варьирования фактора,
M - количество параллельных опытов,
y1i - первый опыт,
yi - среднее в серии,
S2{y} - дисперсия в серии.
Строится экспериментальный график, по которым делается предположение о виде линии регрессии.
Решается система уравнений, и определяются оценку и коэффициентов регрессионной зависимости
Считается теоретическое значение выходной величины (yi)
5) Считается относительная погрешность по формуле:
E= уi-уi / max{yi,yi}