Написать аппроксимацию гауссом методом наименьших квадратов. Курсовая работа: Аппроксимация функции методом наименьших квадратов

КУРСОВАЯ РАБОТА

по дисциплине: Информатика

Тема: Аппроксимация функции методом наименьших квадратов

Введение

1.Постановка задачи

2.Расчётные формулы

Расчёт с помощью таблиц, выполненных средствами Microsoft Excel

Схема алгоритма

Расчет в программе MathCad

Результаты, полученные с помощью функции Линейн

Представление результатов в виде графиков


Введение

Целью курсовой работы является углубление знаний по информатике, развитие и закрепление навыков работы с табличным процессором Microsoft Excel и программным продуктом MathCAD и применение их для решения задач с помощью ЭВМ из предметной области, связанной с исследованиями.

Аппроксимация (от латинского "approximare" -"приближаться") - приближенное выражение каких-либо математических объектов (например, чисел или функций) через другие более простые, более удобные в пользовании или просто более известные. В научных исследованиях аппроксимация применяется для описания, анализа, обобщения и дальнейшего использования эмпирических результатов.

Как известно, между величинами может существовать точная (функциональная) связь, когда одному значению аргумента соответствует одно определенное значение, и менее точная (корреляционная) связь, когда одному конкретному значению аргумента соответствует приближенное значение или некоторое множество значений функции, в той или иной степени близких друг к другу. При ведении научных исследований, обработке результатов наблюдения или эксперимента обычно приходиться сталкиваться со вторым вариантом.

При изучении количественных зависимостей различных показателей, значения которых определяются эмпирически, как правило, имеется некоторая их вариабельность. Частично она задается неоднородностью самих изучаемых объектов неживой и, особенно, живой природы, частично - обуславливается погрешностью наблюдения и количественной обработке материалов. Последнюю составляющую не всегда удается исключить полностью, можно лишь минимизировать ее тщательным выбором адекватного метода исследования и аккуратностью работы. Поэтому при выполнении любой научно-исследовательской работы возникает проблема выявления подлинного характера зависимости изучаемых показателей, этой или иной степени замаскированных неучтенностью вариабельности: значений. Для этого и применяется аппроксимация - приближенное описание корреляционной зависимости переменных подходящим уравнением функциональной зависимости, передающим основную тенденцию зависимости (или ее "тренд").

При выборе аппроксимации следует исходить из конкретной задачи исследования. Обычно, чем более простое уравнение используется для аппроксимации, тем более приблизительно получаемое описание зависимости. Поэтому важно считывать, насколько существенны и чем обусловлены отклонения конкретных значений от получаемого тренда. При описании зависимости эмпирически определенных значений можно добиться и гораздо большей точности, используя какое-либо более сложное, много параметрическое уравнение. Однако нет никакого смысла стремиться с максимальной точностью передать случайные отклонения величин в конкретных рядах эмпирических данных. Гораздо важнее уловить общую закономерность, которая в данном случае наиболее логично и с приемлемой точностью выражается именно двухпараметрическим уравнением степенной функции. Таким образом, выбирая метод аппроксимации, исследователь всегда идет на компромисс: решает, в какой степени в данном случае целесообразно и уместно «пожертвовать» деталями и, соответственно, насколько обобщенно следует выразить зависимость сопоставляемых переменных. Наряду с выявлением закономерностей, замаскированных случайными отклонениями эмпирических данных от общей закономерности, аппроксимация позволяет также решать много других важных задач: формализовать найденную зависимость; найти неизвестные значения зависимой переменной путем интерполяции или, если это допустимо, экстраполяции.

В каждом задании формулируются условия задачи, исходные данные, форма выдачи результатов, указываются основные математические зависимости для решения задачи. В соответствии с методом решения задачи разрабатывается алгоритм решения, который представляется в графической форме.

1. Постановка задачи

1. Используя метод наименьших квадратов функцию, заданную таблично, аппроксимировать:

а) многочленом первой степени;

б) многочленом второй степени;

в) экспоненциальной зависимостью.

Для каждой зависимости вычислить коэффициент детерминированности.

Вычислить коэффициент корреляции (только в случае а).

Для каждой зависимости построить линию тренда.

Используя функцию ЛИНЕЙН вычислить числовые характеристики зависимости от.

Сравнить свои вычисления с результатами, полученными при помощи функции ЛИНЕЙН.

Сделать вывод, какая из полученных формул наилучшим образом аппроксимирует функцию.

Написать программу на одном из языков программирования и сравнить результаты счета с полученными выше.

Вариант 3. Функция задана табл. 1.

Таблица 1.

xyxyxyxyxy0.281.052.349.113.3329.434.2386.445.55187.540.872.872.6516.863.4137.454.8390.856.32200.451.656.432.7717.973.5542.444.9299.066.66212.971.998.962.8318.993.8556.945.14120.457.13275.742.088.083.0623.754.0175.085.23139.657.25321.43

2. Расчётные формулы

Часто при анализе эмпирических данных возникает необходимость найти функциональную зависимость между величинами x и y, которые получены в результате опыта или измерений.

Хi (независимая величина) задается экспериментатором, а yi , называемая эмпирическими или опытными значениями получается в результате опыта.

Аналитический вид функциональной зависимости, существующей между величинами x и y обычно неизвестен, поэтому возникает практически важная задача - найти эмпирическую формулу

(где - параметры), значения которой при возможно мало отличались бы от опытных значений.

Согласно методу наименьших квадратов наилучшими коэффициентами считаются те, для которых сумма квадратов отклонений найденной эмпирической функции от заданных значений функции будет минимальной.

Используя необходимое условие экстремума функции нескольких переменных - равенство нулю частных производных, находят набор коэффициентов, которые доставляют минимум функции, определяемой формулой (2) и получают нормальную систему для определения коэффициентов:

Таким образом, нахождение коэффициентов сводится к решению системы (3).

Вид системы (3) зависит от того, из какого класса эмпирических формул мы ищем зависимость (1). В случае линейной зависимости система (3) примет вид:

В случае квадратичной зависимости система (3) примет вид:

В ряде случаев в качестве эмпирической формулы берут функцию в которую неопределенные коэффициенты входят нелинейно. При этом иногда задачу удается линеаризовать т.е. свести к линейной. К числу таких зависимостей относится экспоненциальная зависимость

где a1и a2 неопределенные коэффициенты.

Линеаризация достигается путем логарифмирования равенства (6), после чего получаем соотношение

Обозначим и соответственно через и, тогда зависимость (6) может быть записана в виде, что позволяет применить формулы (4) с заменой a1 на и на.

График восстановленной функциональной зависимости y(x) по результатам измерений (xi, yi), i=1,2,…,n называется кривой регрессии. Для проверки согласия построенной кривой регрессии с результатами эксперимента обычно вводят следующие числовые характеристики: коэффициент корреляции (линейная зависимость), корреляционное отношение и коэффициент детерминированности.

Коэффициент корреляции является мерой линейной связи между зависимыми случайными величинами: он показывает, насколько хорошо в среднем может быть представлена одна из величин в виде линейной функции от другой.

Коэффициент корреляции вычисляется по формуле:

где - среднее арифметическое значение соответственно по x, y.

Коэффициент корреляции между случайными величинами по абсолютной величине не превосходит 1. Чем ближе к 1, тем теснее линейная связь между x и y.

В случае нелинейной корреляционной связи условные средние значения располагаются около кривой линии. В этом случае в качестве характеристики силы связи рекомендуется использовать корреляционное отношение, интерпретация которого не зависит от вида исследуемой зависимости.

Корреляционное отношение вычисляется по формуле:

где а числитель характеризует рассеяние условных средних около безусловного среднего.

Всегда. Равенство = соответствует случайным некоррелированным величинам; = тогда и только тогда, когда имеется точная функциональная связь между x и y. В случае линейной зависимости y от x корреляционное отношение совпадает с квадратом коэффициента корреляции. Величина используется в качестве индикатора отклонения регрессии от линейной.

Корреляционное отношение является мерой корреляционной связи y c x в какой угодно форме, но не может дать представления о степени приближенности эмпирических данных к специальной форме. Чтобы выяснить насколько точно построен5ная кривая отражает эмпирические данные вводится еще одна характеристика - коэффициент детерминированности.


где Sост = - остаточная сумма квадратов, характеризующая отклонение экспериментальных данных от теоретических.полн - полная сумма квадратов, где среднее значение yi.

Регрессионная сумма квадратов, характеризующая разброс данных.

Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента детерминированности r2, который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y.

Коэффициент детерминированности всегда не превосходит корреляционное отношение. В случае когда выполняется равенство то можно считать, что построенная эмпирическая формула наиболее точно отражает эмпирические данные.

3. Расчёт с помощью таблиц, выполненных средствами Microsoft Excel

Для проведения расчётов данные целесообразно расположить в виде таблицы 2, используя средства табличного процессора Microsoft Excel.

Таблица 2

ABCDEFGHI10,281,050,07840,2940,0219520,0061470,082320,048790,01366120,872,870,75692,49690,6585030,5728982,1723031,0543120,91725131,656,432,722510,60954,4921257,41200617,505681,8609753,07060841,998,963,960117,83047,88059915,6823935,48252,192774,36361352,088,084,326416,80648,99891218,7177434,957312,0893924,34593562,349,115,475621,317412,812929,982249,882722,2093735,16993272,6516,867,022544,67918,6096349,31551118,39942,8249447,48610182,7717,977,672949,776921,2539358,87339137,8822,8887048,00170992,8318,998,008953,741722,6651964,14248152,0892,9439138,331272103,0623,759,363672,67528,6526287,677222,38553,1675839,692803113,3329,4311,088998,001936,92604122,9637326,34633,38201511,26211123,4137,4511,6281127,704539,65182135,2127435,47233,62300712,35445133,5542,4412,6025150,66244,73888158,823534,85013,74809113,30572143,8556,9414,8225219,21957,06663219,7065843,99324,04199815,56169154,0175,0816,0801301,070864,4812258,56961207,2944,31855417,3174164,2386,4417,8929365,641275,68697320,15591546,6624,45945118,86348174,8390,8523,3289438,8055112,6786544,23762119,4314,5092121,77948184,9299,0624,2064487,3752119,0955585,94982397,8864,59572622,61097195,14120,4526,4196619,113135,7967697,99533182,2414,79123524,62695205,23139,6527,3529730,3695143,0557748,18113819,8324,93913925,8317215,55187,5430,80251040,847170,9539948,7945776,7015,23399229,04866226,32200,4539,94241266,844252,4361595,3958006,4545,30056533,49957236,66212,9744,35561418,38295,40831967,4199446,4125,36115135,70527247,13275,7450,83691966,026362,46712584,3914017,775,61945840,06674257,25321,4352,56252330,368381,07812762,81616895,165,7727841,852652695,932089,99453,310511850,652417,56813982,9971327,3490,97713415,0797С У М М ЫПоясним, как таблица 2 составляется.

Шаг 1.В ячейки А1:A25 заносим значения xi.

Шаг 2.В ячейки B1:B25 заносим значения уi.

Шаг 3.В ячейку С1 вводим формулу=А1^2.

Шаг 4.В ячейки С1:С25 эта формула копируется.

Шаг 5.В ячейку D1 вводим формулу=А1*B1.

Шаг 6.В ячейки D1:D25 эта формула копируется.

Шаг 7.В ячейку F1 вводим формулу=А1^4.

Шаг 8.В ячейки F1:F25 эта формула копируется.

Шаг 9.В ячейку G1 вводим формулу=А1^2*B1.

Шаг 10.В ячейки G1:G25 эта формула копируется.

Шаг 11.В ячейку H1 вводим формулу = LN(B1).

Шаг 12.В ячейки H1:H25 эта формула копируется.

Шаг 13.В ячейку I1 вводим формулу=А1*LN(B1).

Шаг 14.В ячейки I1:I25 эта формула копируется.

Последующие шаги делаем с помощью автосуммирования S.

Шаг 15. В ячейку А26 вводим формулу = СУММ(А1:А25).

Шаг 16. В ячейку В26 вводим формулу = СУММ(В1:В25).

Шаг 17. В ячейку С26 вводим формулу = СУММ(С1:С25).

Шаг 18. В ячейку D26 вводим формулу = СУММ(D1:D25).

Шаг 19. В ячейку E26 вводим формулу = СУММ(E1:E25).

Шаг 20. В ячейку F26 вводим формулу = СУММ(F1:F25).

Шаг 21. В ячейку G26 вводим формулу = СУММ(G1:G25).

Шаг 22. В ячейку H26 вводим формулу = СУММ(H1:H25).

Шаг 23. В ячейку I26 вводим формулу = СУММ(I1:I25).

Аппроксимируем функцию линейной функцией. Для определения коэффициентов и воспользуемся системой (4). Используя итоговые суммы таблицы 2, расположенные в ячейках A26, B26, C26 и D26, запишем систему (4) в виде

решив которую, получим и.

Систему решали методом Крамера. Суть которого состоит в следующем. Рассмотрим систему n алгебраических линейных уравнений с n неизвестными:

Определителем системы называется определитель матрицы системы:

Обозначим - определитель, который получится из определителя системы Δ заменой j-го столбца на столбец

Таким образом, линейная аппроксимация имеет вид

Решение системы (11) проводим, пользуясь средствами Microsoft Excel. Результаты представлены в таблице 3.

Таблица 3

ABCDE282595,932089,992995,93453,310511850,653031Обратная матрица320,212802-0,04503a1=-88,9208133-0,045030,011736a2=44,95997

В таблице 3 в ячейках A32:B33 записана формула {=МОБР(А28:В29)}.

В ячейках Е32:Е33 записана формула {=МУМНОЖ(А32:В33),(C28:С29)}.

Далее аппроксимируем функцию квадратичной функцией. Для определения коэффициентов a1, a2 и a3 воспользуемся системой (5). Используя итоговые суммы таблицы 2, расположенные в ячейках A26, B26, C26 , D26, E26, F26, G26 запишем систему (5) в виде

решив которую, получим a1=10,663624, и

Таким образом, квадратичная аппроксимация имеет вид

Решение системы (16) проводим, пользуясь средствами Microsoft Excel. Результаты представлены в таблице 4.

Таблица 4

ABCDEF362595,93453,31052089,993795,93453,31052417,56811850,65538453,31052417,56813982,9971327,3453940Обратная матрица410,632687-0,314390,033846a1=10,66362442-0,314390,184534-0,021712a2=-18,924512430,033846-0,021710,002728a3=8,0272305

В таблице 4 в ячейках А41:С43 записана формула {=МОБР(А36:С38)}.

В ячейках F41:F43 записана формула {=МУМНОЖ(А41:C43),(D36:D38)}.

Теперь аппроксимируем функцию экспоненциальной функцией. Для определения коэффициентов и прологарифмируем значения и, используя итоговые суммы таблицы 2, расположенные в ячейках A26, C26, H26 и I26, получим систему

Решив систему (18), получим и.

После потенцирования получим.

Таким образом, экспоненциальная аппроксимация имеет вид

Решение системы (18) проводим, пользуясь средствами Microsoft Excel. Результаты представлены в таблице 5.

Таблица 5

BCDEF462595,9390,977134795,93453,3105415,07974849Обратная матрицас=0,667679 500,212802-0,04503а2=0,774368 51-0,045030,011736а1=1,949707

В ячейках А50:В51 записана формула {=МОБР(А46:В47)}.

В ячейке Е51 записана формула=EXP(E49).

Вычислим среднее арифметическое и по формулам:

Результаты расчета и средствами Microsoft Excel представлены в таблице 6.

Таблица 6

BC54Xср=3,837255Yср=83,5996

В ячейке В54 записана формула=А26/25.

В ячейке В55 записана формула=В26/25

Таблица 7

ABJKLMNO10,281,05293,645412,653676814,4365987,97624,444081,88177520,872,87239,54098,8042766517,2682774,7226,7334610,91071731,656,43168,78534,7838445955,147448,035726,395820,32073741,998,96137,87433,4121485571,0770,7358817,368220,02062652,088,08132,7033,0877525703,2112,138714,2039422,82478262,349,11111,52582,2416085548,70151,488211,4985887,99584272,6516,8679,233251,4094444454,174178,5730,000622,83382582,7717,9770,039911,1389164307,244311,46313,4777091,73059692,8318,9965,074791,0144524174,4373,4915,7914362,382273103,0623,7546,515110,604043581,975620,344117,375498,423061113,3329,4327,474820,2572522934,346983,819852,2462113,94466123,4137,4519,715110,18252129,786725,90914,090409102,2541133,5542,4411,821040,0824841694,113797,89844,861044143,3219143,8556,94-0,341240,000164710,7343741,750,023142342,3946154,0175,08-1,472190,0298672,58358265,3212126,0007996,9257164,2386,441,1157090,1542928,067872219,6288148,75781214,778174,8390,857,1981970,98565252,56831397,703245,695876,64891184,9299,0616,740521,172456239,0241103,718163,9776121,868195,14120,4548,00871,6972881357,952471,908425,17881258,6007205,23139,6578,0671,9398923141,64743,1629470,45155769,9408215,55187,54178,02912,93368410803,61725,38421200,5291951,06226,32200,45290,11626,16429613654,0227,28786126,28273577,409236,66212,97365,18687,968216736,76,038755767,788515795,87247,13275,74632,679910,8425336917,931944,47565,1469344766,92257,25321,43811,667611,647256563,37121,842677,966445516,82695,932089,93830,94585,207919964427404,823786,286115678,1С у м м ыОстаточные суммыXYлинейн.квадр.экспон.

Поясним как она составляется.

Ячейки А1:А26 и В1:В26 уже заполнены.

Шаг 1.В ячейку J1 вводим формулу = (А1-$B$54)*(B1-$B$55).

Шаг 2.В ячейки J2:J25 эта формула копируется.

Шаг 3.В ячейку K1 вводим формулу = (А1-$B$54)^2.

Шаг 4.В ячейки k2:K25 эта формула копируется.

Шаг 5.В ячейку L1 вводим формулу = (B1-$B$55)^2.

Шаг 6.В ячейки L2:L25 эта формула копируется.

Шаг 7.В ячейку M1 вводим формулу = ($E$32+$E$33*A1-B1)^2.

Шаг 8.В ячейки M2:M25 эта формула копируется.

Шаг 9.В ячейку N1 вводим формулу = ($F$41+$F$42*A1+$F$43*A1^2-B1)^2.

Шаг 10.В ячейки N2:N25 эта формула копируется.

Шаг 11.В ячейку O1 вводим формулу = ($E$51*EXP($E$50*A1)-B1)^2.

Шаг 12.В ячейки O2:O25 эта формула копируется.

Последующие шаги делаем с помощью авто суммирования S.

Шаг 13.В ячейку J26 вводим формулу = CУММ(J1:J25).

Шаг 14.В ячейку K26 вводим формулу = CУММ(K1:K25).

Шаг 15.В ячейку L26 вводим формулу = CУММ(L1:L25).

Шаг 16.В ячейку M26 вводим формулу = CУММ(M1:M25).

Шаг 17.В ячейку N26 вводим формулу = CУММ(N1:N25).

Шаг 18.В ячейку O26 вводим формулу = CУММ(O1:O25).

Теперь проведем расчеты коэффициента корреляции по формуле (8) (только для линейной аппроксимации) и коэффициента детерминированности по формуле (10). Результаты расчетов средствами Microsoft Excel представлены в таблице 8.

Таблица 8

AB57Коэффициент корреляции0,92883358Коэффициент детерминированности (линейная аппроксимация)0,8627325960Коэффициент детерминированности (квадратичная аппроксимация)0,9810356162Коэффициент детерминированности (экспоненциальная аппроксимация)0,42057863В ячейке E57 записана формула=J26/(K26*L26)^(1/2).

В ячейке E59 записана формула=1-M26/L26.

В ячейке E61 записана формула=1-N26/L26.

В ячейке E63 записана формула=1-O26/L26.

Анализ результатов расчетов показывает, что квадратичная аппроксимация наилучшим образом описывает экспериментальные данные.

Схема алгоритма

Рис. 1. Схема алгоритма для программы расчёта.

5. Расчет в программе MathCad

Линейная регрессия

·line (x, y) - вектор из двух элементов (b, a) коэффициентов линейной регрессии b+ax;

·x - вектор действительных данных аргумента;

·y - вектор действительных данных значений того же размера.

Рисунок 2.

Полиномиальная регрессия означает приближение данных (х1, у1) полиномом k-й степени При k=i полином является прямой линией, при k=2 - параболой, при k=3 - кубической параболой и т.д. Как правило, на практике применяются k<5.

·regress (x,y,k) - вектор коэффициентов для построения полиномиальной регрессии данных;

·interp (s,x,y,t) - результат полиномиальной регрессии;

·s=regress(x,y,k);

·x - вектор действительных данных аргумента, элементы которого расположены в порядке возрастания;

·y - вектор действительных данных значений того же размера;

·k - степень полинома регрессии (целое положительное число);

·t - значение аргумента полинома регрессии.

Рисунок 3

Кроме рассмотренных, в Mathcad встроено еще несколько видов трехпараметрической регрессии, их реализация несколько отличается от приведенных выше вариантов регрессии тем, что для них, помимо массива данных, требуется задать некоторые начальные значения коэффициентов a, b, c. Используйте соответствующий вид регрессии, если хорошо представляете себе, какой зависимостью описывается ваш массив данных. Когда тип регрессии плохо отражает последовательность данных, то ее результат часто бывает неудовлетворительным и даже сильно различающимся в зависимости от выбора начальных значений. Каждая из функций выдает вектор уточненных параметров a, b, c.

Результаты, полученные с помощью функции ЛИНЕЙН

Рассмотрим назначение функции ЛИНЕЙН.

Эта функция использует метод наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные.

Функция возвращает массив, который описывает полученную прямую. Уравнение для прямой линии имеет следующий вид:

M1x1 + m2x2 + ... + b или y = mx + b,

алгоритм табличный microsoft программный

Для получения результатов необходимо создать табличную формулу, которая будет занимать 5 строк и 2 столбца. Этот интервал может располагаться в произвольном месте на рабочем листе. В этот интервал требуется ввести функцию ЛИНЕЙН.

В результате должны заполниться все ячейки интервала А65:В69 (как показано в таблице 9).

Таблица 9.

АВ6544,95997-88,9208663,73946615,92346670,86273234,5183168144,55492369172239,227404,82

Поясним назначение некоторых величин, расположенных в таблице 9.

Величины, расположенные в ячейках А65 и В65 характеризуют соответственно наклон и сдвиг.- коэффициент детерминированности.- F-наблюдаемое значение.- число степеней свободы.- регрессионная сумма квадратов.- остаточная сумма квадратов.

Представление результатов в виде графиков

Рис. 4. График линейной аппроксимации

Рис. 5. График квадратичной аппроксимации

Рис. 6. График экспоненциальной аппроксимации

Выводы

Сделаем выводы по результатам полученных данных.

Анализ результатов расчетов показывает, что квадратичная аппроксимация наилучшим образом описывает экспериментальные данные, т.к. линия тренда для неё наиболее точно отражает поведение функции на данном участке.

Сравнивая результаты, полученные при помощи функции ЛИНЕЙН, видим, что они полностью совпадают с вычислениями, проведенными выше. Это указывает на то, что вычисления верны.

Результаты, полученные с помощью программы MathCad, полностью совпадают со значениями приведенными выше. Это говорит о верности вычислений.

Список используемой литературы

  1. Б.П. Демидович, И.А. Марон. Основы вычислительной математики. М: Государственное издательство физико-математической литературы.
  2. Информатика: Учебник под ред. проф. Н.В. Макаровой. М: Финансы и статистика, 2007.
  3. Информатика: Практикум по технологии работы на компьютере под ред. проф. Н.В. Макаровой. М: Финансы и статистика, 2010.
  4. В.Б. Комягин. Программирование в Excel на языке Visual Basic. М: Радио и связь, 2007.
  5. Н. Николь, Р. Альбрехт. Excel. Электронные таблицы. М: Изд. «ЭКОМ», 2008.
  6. Методические указания к выполнению курсовой работы по информатике (для студентов заочного отделения всех специальностей), под ред. Журова Г. Н., СПбГГИ(ТУ), 2011.

Которое находит самое широкое применение в различных областях науки и практической деятельности. Это может быть физика, химия, биология, экономика, социология, психология и так далее, так далее. Волею судьбы мне часто приходится иметь дело с экономикой, и поэтому сегодня я оформлю вам путёвку в удивительную страну под названием Эконометрика =) …Как это не хотите?! Там очень хорошо – нужно только решиться! …Но вот то, что вы, наверное, определённо хотите – так это научиться решать задачи методом наименьших квадратов . И особо прилежные читатели научатся решать их не только безошибочно, но ещё и ОЧЕНЬ БЫСТРО;-) Но сначала общая постановка задачи + сопутствующий пример:

Пусть в некоторой предметной области исследуются показатели , которые имеют количественное выражение. При этом есть все основания полагать, что показатель зависит от показателя . Это полагание может быть как научной гипотезой, так и основываться на элементарном здравом смысле. Оставим, однако, науку в сторонке и исследуем более аппетитные области – а именно, продовольственные магазины. Обозначим через:

– торговую площадь продовольственного магазина, кв.м.,
– годовой товарооборот продовольственного магазина, млн. руб.

Совершенно понятно, что чем больше площадь магазина, тем в большинстве случаев будет больше его товарооборот.

Предположим, что после проведения наблюдений/опытов/подсчётов/танцев с бубном в нашем распоряжении оказываются числовые данные:

С гастрономами, думаю, всё понятно: – это площадь 1-го магазина, – его годовой товарооборот, – площадь 2-го магазина, – его годовой товарооборот и т.д. Кстати, совсем не обязательно иметь доступ к секретным материалам – довольно точную оценку товарооборота можно получить средствами математической статистики . Впрочем, не отвлекаемся, курс коммерческого шпионажа – он уже платный =)

Табличные данные также можно записать в виде точек и изобразить в привычной для нас декартовой системе .

Ответим на важный вопрос: сколько точек нужно для качественного исследования?

Чем больше, тем лучше. Минимально допустимый набор состоит из 5-6 точек. Кроме того, при небольшом количестве данных в выборку нельзя включать «аномальные» результаты. Так, например, небольшой элитный магазин может выручать на порядки больше «своих коллег», искажая тем самым общую закономерность, которую и требуется найти!

Если совсем просто – нам нужно подобрать функцию , график которой проходит как можно ближе к точкам . Такую функцию называют аппроксимирующей (аппроксимация – приближение) или теоретической функцией . Вообще говоря, тут сразу появляется очевидный «претендент» – многочлен высокой степени, график которого проходит через ВСЕ точки. Но этот вариант сложен, а зачастую и просто некорректен (т.к. график будет всё время «петлять» и плохо отражать главную тенденцию) .

Таким образом, разыскиваемая функция должна быть достаточно простА и в то же время отражать зависимость адекватно. Как вы догадываетесь, один из методов нахождения таких функций и называется методом наименьших квадратов . Сначала разберём его суть в общем виде. Пусть некоторая функция приближает экспериментальные данные :


Как оценить точность данного приближения? Вычислим и разности (отклонения) между экспериментальными и функциональными значениями (изучаем чертёж) . Первая мысль, которая приходит в голову – это оценить, насколько великА сумма , но проблема состоит в том, что разности могут быть и отрицательны (например, ) и отклонения в результате такого суммирования будут взаимоуничтожаться. Поэтому в качестве оценки точности приближения напрашивается принять сумму модулей отклонений:

или в свёрнутом виде: (вдруг кто не знает: – это значок суммы, а – вспомогательная переменная-«счётчик», которая принимает значения от 1 до ) .

Приближая экспериментальные точки различными функциями, мы будем получать разные значения , и очевидно, где эта сумма меньше – та функция и точнее.

Такой метод существует и называется он методом наименьших модулей . Однако на практике получил гораздо бОльшее распространение метод наименьших квадратов , в котором возможные отрицательные значения ликвидируются не модулем, а возведением отклонений в квадрат:

, после чего усилия направлены на подбор такой функции , чтобы сумма квадратов отклонений была как можно меньше. Собственно, отсюда и название метода.

И сейчас мы возвращаемся к другому важному моменту: как отмечалось выше, подбираемая функция должна быть достаточно простА – но ведь и таких функций тоже немало: линейная , гиперболическая , экспоненциальная , логарифмическая , квадратичная и т.д. И, конечно же, тут сразу бы хотелось «сократить поле деятельности». Какой класс функций выбрать для исследования? Примитивный, но эффективный приём:

– Проще всего изобразить точки на чертеже и проанализировать их расположение. Если они имеют тенденцию располагаться по прямой, то следует искать уравнение прямой с оптимальными значениями и . Иными словами, задача состоит в нахождении ТАКИХ коэффициентов – чтобы сумма квадратов отклонений была наименьшей.

Если же точки расположены, например, по гиперболе , то заведомо понятно, что линейная функция будет давать плохое приближение. В этом случае ищем наиболее «выгодные» коэффициенты для уравнения гиперболы – те, которые дают минимальную сумму квадратов .

А теперь обратите внимание, что в обоих случаях речь идёт о функции двух переменных , аргументами которой являются параметры разыскиваемых зависимостей :

И по существу нам требуется решить стандартную задачу – найти минимум функции двух переменных .

Вспомним про наш пример: предположим, что «магазинные» точки имеют тенденцию располагаться по прямой линии и есть все основания полагать наличие линейной зависимости товарооборота от торговой площади. Найдём ТАКИЕ коэффициенты «а» и «бэ», чтобы сумма квадратов отклонений была наименьшей. Всё как обычно – сначала частные производные 1-го порядка . Согласно правилу линейности дифференцировать можно прямо под значком суммы:

Если хотите использовать данную информацию для реферата или курсовика – буду очень благодарен за поставленную ссылку в списке источников, такие подробные выкладки найдёте мало где:

Составим стандартную систему:

Сокращаем каждое уравнение на «двойку» и, кроме того, «разваливаем» суммы:

Примечание : самостоятельно проанализируйте, почему «а» и «бэ» можно вынести за значок суммы. Кстати, формально это можно проделать и с суммой

Перепишем систему в «прикладном» виде:

после чего начинает прорисовываться алгоритм решения нашей задачи:

Координаты точек мы знаем? Знаем. Суммы найти можем? Легко. Составляем простейшую систему двух линейных уравнений с двумя неизвестными («а» и «бэ»). Систему решаем, например, методом Крамера , в результате чего получаем стационарную точку . Проверяя достаточное условие экстремума , можно убедиться, что в данной точке функция достигает именно минимума . Проверка сопряжена с дополнительными выкладками и поэтому оставим её за кадром (при необходимости недостающий кадр можно посмотреть ) . Делаем окончательный вывод:

Функция наилучшим образом (по крайне мере, по сравнению с любой другой линейной функцией) приближает экспериментальные точки . Грубо говоря, её график проходит максимально близко к этим точкам. В традициях эконометрики полученную аппроксимирующую функцию также называют уравнением пАрной линейной регрессии .

Рассматриваемая задача имеет большое практическое значение. В ситуации с нашим примером, уравнение позволяет прогнозировать, какой товарооборот («игрек») будет у магазина при том или ином значении торговой площади (том или ином значении «икс») . Да, полученный прогноз будет лишь прогнозом, но во многих случаях он окажется достаточно точным.

Я разберу всего лишь одну задачу с «реальными» числами, поскольку никаких трудностей в ней нет – все вычисления на уровне школьной программы 7-8 класса. В 95 процентов случаев вам будет предложено отыскать как раз линейную функцию, но в самом конце статьи я покажу, что ничуть не сложнее отыскать уравнения оптимальной гиперболы, экспоненты и некоторых других функций.

По сути, осталось раздать обещанные плюшки – чтобы вы научились решать такие примеры не только безошибочно, но ещё и быстро. Внимательно изучаем стандарт:

Задача

В результате исследования взаимосвязи двух показателей, получены следующие пары чисел:

Методом наименьших квадратов найти линейную функцию, которая наилучшим образом приближает эмпирические (опытные) данные. Сделать чертеж, на котором в декартовой прямоугольной системе координат построить экспериментальные точки и график аппроксимирующей функции . Найти сумму квадратов отклонений между эмпирическими и теоретическими значениями. Выяснить, будет ли функция лучше (с точки зрения метода наименьших квадратов) приближать экспериментальные точки.

Заметьте, что «иксовые» значения – натуральные, и это имеет характерный содержательный смысл, о котором я расскажу чуть позже; но они, разумеется, могут быть и дробными. Кроме того, в зависимости от содержания той или иной задачи как «иксовые», так и «игрековые» значения полностью или частично могут быть отрицательными. Ну а у нас дана «безликая» задача, и мы начинаем её решение :

Коэффициенты оптимальной функции найдём как решение системы:

В целях более компактной записи переменную-«счётчик» можно опустить, поскольку и так понятно, что суммирование осуществляется от 1 до .

Расчёт нужных сумм удобнее оформить в табличном виде:


Вычисления можно провести на микрокалькуляторе, но гораздо лучше использовать Эксель – и быстрее, и без ошибок; смотрим короткий видеоролик:

Таким образом, получаем следующую систему :

Тут можно умножить второе уравнение на 3 и из 1-го уравнения почленно вычесть 2-е . Но это везение – на практике системы чаще не подарочны, и в таких случаях спасает метод Крамера :
, значит, система имеет единственное решение.

Выполним проверку. Понимаю, что не хочется, но зачем же пропускать ошибки там, где их можно стопроцентно не пропустить? Подставим найденное решение в левую часть каждого уравнения системы:

Получены правые части соответствующих уравнений, значит, система решена правильно.

Таким образом, искомая аппроксимирующая функция: – из всех линейных функций экспериментальные данные наилучшим образом приближает именно она.

В отличие от прямой зависимости товарооборота магазина от его площади, найденная зависимость является обратной (принцип «чем больше – тем меньше») , и этот факт сразу выявляется по отрицательному угловому коэффициенту . Функция сообщает нам о том, что с увеличение некоего показателя на 1 единицу значение зависимого показателя уменьшается в среднем на 0,65 единиц. Как говорится, чем выше цена на гречку, тем меньше её продано.

Для построения графика аппроксимирующей функции найдём два её значения:

и выполним чертёж:


Построенная прямая называется линией тренда (а именно – линией линейного тренда, т.е. в общем случае тренд – это не обязательно прямая линия) . Всем знакомо выражение «быть в тренде», и, думаю, что этот термин не нуждается в дополнительных комментариях.

Вычислим сумму квадратов отклонений между эмпирическими и теоретическими значениями. Геометрически – это сумма квадратов длин «малиновых» отрезков (два из которых настолько малы, что их даже не видно) .

Вычисления сведём в таблицу:


Их можно опять же провести вручную, на всякий случай приведу пример для 1-й точки:

но намного эффективнее поступить уже известным образом:

Еще раз повторим: в чём смысл полученного результата? Из всех линейных функций у функции показатель является наименьшим, то есть в своём семействе это наилучшее приближение. И здесь, кстати, не случаен заключительный вопрос задачи: а вдруг предложенная экспоненциальная функция будет лучше приближать экспериментальные точки?

Найдем соответствующую сумму квадратов отклонений – чтобы различать, я обозначу их буквой «эпсилон». Техника точно такая же:


И снова на всякий пожарный вычисления для 1-й точки:

В Экселе пользуемся стандартной функцией EXP (синтаксис можно посмотреть в экселевской Справке) .

Вывод : , значит, экспоненциальная функция приближает экспериментальные точки хуже, чем прямая .

Но тут следует отметить, что «хуже» – это ещё не значит , что плохо. Сейчас построил график этой экспоненциальной функции – и он тоже проходит близко к точкам – да так, что без аналитического исследования и сказать трудно, какая функция точнее.

На этом решение закончено, и я возвращаюсь к вопросу о натуральных значениях аргумента. В различных исследованиях, как правило, экономических или социологических, натуральными «иксами» нумеруют месяцы, годы или иные равные временнЫе промежутки. Рассмотрим, например, такую задачу.

Пример.

Экспериментальные данные о значениях переменных х и у приведены в таблице.

В результате их выравнивания получена функция

Используя метод наименьших квадратов , аппроксимировать эти данные линейной зависимостью y=ax+b (найти параметры а и b ). Выяснить, какая из двух линий лучше (в смысле метода наименьших квадратов) выравнивает экспериментальные данные. Сделать чертеж.

Суть метода наименьших квадратов (мнк).

Задача заключается в нахождении коэффициентов линейной зависимости, при которых функция двух переменных а и b принимает наименьшее значение. То есть, при данныха и b сумма квадратов отклонений экспериментальных данных от найденной прямой будет наименьшей. В этом вся суть метода наименьших квадратов.

Таким образом, решение примера сводится к нахождению экстремума функции двух переменных.

Вывод формул для нахождения коэффициентов.

Составляется и решается система из двух уравнений с двумя неизвестными. Находим частные производные функции по переменныма и b , приравниваем эти производные к нулю.

Решаем полученную систему уравнений любым методом (например методом подстановки или методом Крамера ) и получаем формулы для нахождения коэффициентов по методу наименьших квадратов (МНК).

При данных а и b функция принимает наименьшее значение. Доказательство этого факта приведенониже по тексту в конце страницы .

Вот и весь метод наименьших квадратов. Формула для нахождения параметра a содержит суммы ,,,и параметрn - количество экспериментальных данных. Значения этих сумм рекомендуем вычислять отдельно. Коэффициент b находится после вычисления a .

Пришло время вспомнить про исходый пример.

Решение.

В нашем примере n=5 . Заполняем таблицу для удобства вычисления сумм, которые входят в формулы искомых коэффициентов.

Значения в четвертой строке таблицы получены умножением значений 2-ой строки на значения 3-ей строки для каждого номера i .

Значения в пятой строке таблицы получены возведением в квадрат значений 2-ой строки для каждого номера i .

Значения последнего столбца таблицы – это суммы значений по строкам.

Используем формулы метода наименьших квадратов для нахождения коэффициентов а и b . Подставляем в них соответствующие значения из последнего столбца таблицы:

Следовательно, y = 0.165x+2.184 - искомая аппроксимирующая прямая.

Осталось выяснить какая из линий y = 0.165x+2.184 или лучше аппроксимирует исходные данные, то есть произвести оценку методом наименьших квадратов.

Оценка погрешности метода наименьших квадратов.

Для этого требуется вычислить суммы квадратов отклонений исходных данных от этих линий и, меньшее значение соответствует линии, которая лучше в смысле метода наименьших квадратов аппроксимирует исходные данные.

Так как , то прямаяy = 0.165x+2.184 лучше приближает исходные данные.

Графическая иллюстрация метода наименьших квадратов (мнк).

На графиках все прекрасно видно. Красная линия – это найденная прямая y = 0.165x+2.184 , синяя линия – это , розовые точки – это исходные данные.

На практике при моделировании различных процессов - в частности, экономических, физических, технических, социальных - широко используются те или иные способы вычисления приближенных значений функций по известным их значениям в некоторых фиксированных точках.

Такого рода задачи приближения функций часто возникают:

    при построении приближенных формул для вычисления значений характерных величин исследуемого процесса по табличным данным, полученным в результате эксперимента;

    при численном интегрировании, дифференцировании, решении дифференциальных уравнений и т. д.;

    при необходимости вычисления значений функций в промежуточных точках рассматриваемого интервала;

    при определении значений характерных величин процесса за пределами рассматриваемого интервала, в частности при прогнозировании.

Если для моделирования некоторого процесса, заданного таблицей, построить функцию, приближенно описывающую данный процесс на основе метода наименьших квадратов, она будет называться аппроксимирующей функцией (регрессией), а сама задача построения аппроксимирующих функций - задачей аппроксимации.

В данной статье рассмотрены возможности пакета MS Excel для решения такого рода задач, кроме того, приведены методы и приемы построения (создания) регрессий для таблично заданных функций (что является основой регрессионного анализа).

В Excel для построения регрессий имеются две возможности.

    Добавление выбранных регрессий (линий тренда - trendlines) в диаграмму, построенную на основе таблицы данных для исследуемой характеристики процесса (доступно лишь при наличии построенной диаграммы);

    Использование встроенных статистических функций рабочего листа Excel, позволяющих получать регрессии (линии тренда) непосредственно на основе таблицы исходных данных.

Добавление линий тренда в диаграмму

Для таблицы данных, описывающих некоторый процесс и представленных диаграммой, в Excel имеется эффективный инструмент регрессионного анализа, позволяющий:

    строить на основе метода наименьших квадратов и добавлять в диаграмму пять типов регрессий, которые с той или иной степенью точности моделируют исследуемый процесс;

    добавлять к диаграмме уравнение построенной регрессии;

    определять степень соответствия выбранной регрессии отображаемым на диаграмме данным.

На основе данных диаграммы Excel позволяет получать линейный, полиномиальный, логарифмический, степенной, экспоненциальный типы регрессий, которые задаются уравнением:

y = y(x)

где x - независимая переменная, которая часто принимает значения последовательности натурального ряда чисел (1; 2; 3; …) и производит, например, отсчет времени протекания исследуемого процесса (характеристики).

1 . Линейная регрессия хороша при моделировании характеристик, значения которых увеличиваются или убывают с постоянной скоростью. Это наиболее простая в построении модель исследуемого процесса. Она строится в соответствии с уравнением:

y = mx + b

где m - тангенс угла наклона линейной регрессии к оси абсцисс; b - координата точки пересечения линейной регрессии с осью ординат.

2 . Полиномиальная линия тренда полезна для описания характеристик, имеющих несколько ярко выраженных экстремумов (максимумов и минимумов). Выбор степени полинома определяется количеством экстремумов исследуемой характеристики. Так, полином второй степени может хорошо описать процесс, имеющий только один максимум или минимум; полином третьей степени - не более двух экстремумов; полином четвертой степени - не более трех экстремумов и т. д.

В этом случае линия тренда строится в соответствии с уравнением:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

где коэффициенты c0, c1, c2,... c6 - константы, значения которых определяются в ходе построения.

3 . Логарифмическая линия тренда с успехом применяется при моделировании характеристик, значения которых вначале быстро меняются, а затем постепенно стабилизируются.

y = c ln(x) + b

4 . Степенная линия тренда дает хорошие результаты, если значения исследуемой зависимости характеризуются постоянным изменением скорости роста. Примером такой зависимости может служить график равноускоренного движения автомобиля. Если среди данных встречаются нулевые или отрицательные значения, использовать степенную линию тренда нельзя.

Строится в соответствии с уравнением:

y = c xb

где коэффициенты b, с - константы.

5 . Экспоненциальную линию тренда следует использовать в том случае, если скорость изменения данных непрерывно возрастает. Для данных, содержащих нулевые или отрицательные значения, этот вид приближения также неприменим.

Строится в соответствии с уравнением:

y = c ebx

где коэффициенты b, с - константы.

При подборе линии тренда Excel автоматически рассчитывает значение величины R2, которая характеризует достоверность аппроксимации: чем ближе значение R2 к единице, тем надежнее линия тренда аппроксимирует исследуемый процесс. При необходимости значение R2 всегда можно отобразить на диаграмме.

Определяется по формуле:

Для добавления линии тренда к ряду данных следует:

    активизировать построенную на основе ряда данных диаграмму, т. е. щелкнуть в пределах области диаграммы. В главном меню появится пункт Диаграмма;

    после щелчка на этом пункте на экране появится меню, в котором следует выбрать команду Добавить линию тренда.

Эти же действия легко реализуются, если навести указатель мыши на график, соответствующий одному из рядов данных, и щелкнуть правой кнопкой мыши; в появившемся контекстном меню выбрать команду Добавить линию тренда. На экране появится диалоговое окно Линия тренда с раскрытой вкладкой Тип (рис. 1).

После этого необходимо:

Выбрать на вкладке Тип необходимый тип линии тренда (по умолчанию выбирается тип Линейный). Для типа Полиномиальная в поле Степень следует задать степень выбранного полинома.

1 . В поле Построен на ряде перечислены все ряды данных рассматриваемой диаграммы. Для добавления линии тренда к конкретному ряду данных следует в поле Построен на ряде выбрать его имя.

При необходимости, перейдя на вкладку Параметры (рис. 2), можно для линии тренда задать следующие параметры:

    изменить название линии тренда в поле Название аппроксимирующей (сглаженной) кривой.

    задать количество периодов (вперед или назад) для прогноза в поле Прогноз;

    вывести в область диаграммы уравнение линии тренда, для чего следует включить флажок показать уравнение на диаграмме;

    вывести в область диаграммы значение достоверности аппроксимации R2, для чего следует включить флажок поместить на диаграмму величину достоверности аппроксимации (R^2);

    задать точку пересечения линии тренда с осью Y, для чего следует включить флажок пересечение кривой с осью Y в точке;

    щелкнуть на кнопке OK, чтобы закрыть диалоговое окно.

Для того, чтобы начать редактирование уже построенной линии тренда, существует три способа:

    воспользоваться командой Выделенная линия тренда из меню Формат, предварительно выбрав линию тренда;

    выбрать команду Формат линии тренда из контекстного меню, которое вызывается щелчком правой кнопки мыши по линии тренда;

    двойным щелчком по линии тренда.

На экране появится диалоговое окно Формат линии тренда (рис. 3), содержащее три вкладки: Вид, Тип, Параметры, причем содержимое последних двух полностью совпадает с аналогичными вкладками диалогового окна Линия тренда (рис.1-2). На вкладке Вид, можно задать тип линии, ее цвет и толщину.

Для удаления уже построенной линии тренда следует выбрать удаляемую линию тренда и нажать клавишу Delete.

Достоинствами рассмотренного инструмента регрессионного анализа являются:

    относительная легкость построения на диаграммах линии тренда без создания для нее таблицы данных;

    достаточно широкий перечень типов предложенных линий трендов, причем в этот перечень входят наиболее часто используемые типы регрессии;

    возможность прогнозирования поведения исследуемого процесса на произвольное (в пределах здравого смысла) количество шагов вперед, а также назад;

    возможность получения уравнения линии тренда в аналитическом виде;

    возможность, при необходимости, получения оценки достоверности проведенной аппроксимации.

К недостаткам можно отнести следующие моменты:

    построение линии тренда осуществляется лишь при наличии диаграммы, построенной на ряде данных;

    процесс формирования рядов данных для исследуемой характеристики на основе полученных для нее уравнений линий тренда несколько загроможден: искомые уравнения регрессий обновляются при каждом изменении значений исходного ряда данных, но только в пределах области диаграммы, в то время как ряд данных, сформированный на основе старого уравнения линии тренда, остается без изменения;

    в отчетах сводных диаграмм при изменении представления диаграммы или связанного отчета сводной таблицы имеющиеся линии тренда не сохраняются, то есть до проведения линий тренда или другого форматирования отчета сводных диаграмм следует убедиться, что макет отчета удовлетворяет необходимым требованиям.

Линиями тренда можно дополнить ряды данных, представленные на диаграммах типа график, гистограмма, плоские ненормированные диаграммы с областями, линейчатые, точечные, пузырьковые и биржевые.

Нельзя дополнить линиями тренда ряды данных на объемных, нормированных, лепестковых, круговых и кольцевых диаграммах.

Использование встроенных функций Excel

В Excel имеется также инструмент регрессионного анализа для построения линий тренда вне области диаграммы. Для этой цели можно использовать ряд статистических функций рабочего листа, однако все они позволяют строить лишь линейные или экспоненциальные регрессии.

В Excel имеется несколько функций для построения линейной регрессии, в частности:

    ТЕНДЕНЦИЯ;

  • НАКЛОН и ОТРЕЗОК.

А также несколько функций для построения экспоненциальной линии тренда, в частности:

    ЛГРФПРИБЛ.

Следует отметить, что приемы построения регрессий с помощью функций ТЕНДЕНЦИЯ и РОСТ практически совпадают. То же самое можно сказать и о паре функций ЛИНЕЙН и ЛГРФПРИБЛ. Для четырех этих функций при создании таблицы значений используются такие возможности Excel, как формулы массивов, что несколько загромождает процесс построения регрессий. Заметим также, что построение линейной регрессии, на наш взгляд, легче всего осуществить с помощью функций НАКЛОН и ОТРЕЗОК, где первая из них определяет угловой коэффициент линейной регрессии, а вторая - отрезок, отсекаемый регрессией на оси ординат.

Достоинствами инструмента встроенных функций для регрессионного анализа являются:

    достаточно простой однотипный процесс формирования рядов данных исследуемой характеристики для всех встроенных статистических функций, задающих линии тренда;

    стандартная методика построения линий тренда на основе сформированных рядов данных;

    возможность прогнозирования поведения исследуемого процесса на необходимое количество шагов вперед или назад.

А к недостаткам относится то, что в Excel нет встроенных функций для создания других (кроме линейного и экспоненциального) типов линий тренда. Это обстоятельство часто не позволяет подобрать достаточно точную модель исследуемого процесса, а также получить близкие к реальности прогнозы. Кроме того, при использовании функций ТЕНДЕНЦИЯ и РОСТ не известны уравнения линий тренда.

Следует отметить, что авторы не ставили целью статьи изложение курса регрессионного анализа с той или иной степенью полноты. Основная ее задача - на конкретных примерах показать возможности пакета Excel при решении задач аппроксимации; продемонстрировать, какими эффективными инструментами для построения регрессий и прогнозирования обладает Excel; проиллюстрировать, как относительно легко такие задачи могут быть решены даже пользователем, не владеющим глубокими знаниями регрессионного анализа.

Примеры решения конкретных задач

Рассмотрим решение конкретных задач с помощью перечисленных инструментов пакета Excel.

Задача 1

С таблицей данных о прибыли автотранспортного предприятия за 1995-2002 гг. необходимо выполнить следующие действия.

    Построить диаграмму.

    В диаграмму добавить линейную и полиномиальную (квадратичную и кубическую) линии тренда.

    Используя уравнения линий тренда, получить табличные данные по прибыли предприятия для каждой линии тренда за 1995-2004 г.г.

    Составить прогноз по прибыли предприятия на 2003 и 2004 гг.

Решение задачи

    В диапазон ячеек A4:C11 рабочего листа Excel вводим рабочую таблицу, представленную на рис. 4.

    Выделив диапазон ячеек В4:С11, строим диаграмму.

    Активизируем построенную диаграмму и по описанной выше методике после выбора типа линии тренда в диалоговом окне Линия тренда (см. рис. 1) поочередно добавляем в диаграмму линейную, квадратичную и кубическую линии тренда. В этом же диалоговом окне открываем вкладку Параметры (см. рис. 2), в поле Название аппроксимирующей (сглаженной) кривой вводим наименование добавляемого тренда, а в поле Прогноз вперед на: периодов задаем значение 2, так как планируется сделать прогноз по прибыли на два года вперед. Для вывода в области диаграммы уравнения регрессии и значения достоверности аппроксимации R2 включаем флажки показывать уравнение на экране и поместить на диаграмму величину достоверности аппроксимации (R^2). Для лучшего визуального восприятия изменяем тип, цвет и толщину построенных линий тренда, для чего воспользуемся вкладкой Вид диалогового окна Формат линии тренда (см. рис. 3). Полученная диаграмма с добавленными линиями тренда представлена на рис. 5.

    Для получения табличных данных по прибыли предприятия для каждой линии тренда за 1995-2004 гг. воспользуемся уравнениями линий тренда, представленными на рис. 5. Для этого в ячейки диапазона D3:F3 вводим текстовую информацию о типе выбранной линии тренда: Линейный тренд, Квадратичный тренд, Кубический тренд. Далее вводим в ячейку D4 формулу линейной регрессии и, используя маркер заполнения, копируем эту формулу c относительными ссылками в диапазон ячеек D5:D13. Следует отметить, что каждой ячейке с формулой линейной регрессии из диапазона ячеек D4:D13 в качестве аргумента стоит соответствующая ячейка из диапазона A4:A13. Аналогично для квадратичной регрессии заполняется диапазон ячеек E4:E13, а для кубической регрессии - диапазон ячеек F4:F13. Таким образом, составлен прогноз по прибыли предприятия на 2003 и 2004 гг. с помощью трех трендов. Полученная таблица значений представлена на рис. 6.

Задача 2

    Построить диаграмму.

    В диаграмму добавить логарифмическую, степенную и экспоненциальную линии тренда.

    Вывести уравнения полученных линий тренда, а также величины достоверности аппроксимации R2 для каждой из них.

    Используя уравнения линий тренда, получить табличные данные о прибыли предприятия для каждой линии тренда за 1995-2002 гг.

    Составить прогноз о прибыли предприятия на 2003 и 2004 гг., используя эти линии тренда.

Решение задачи

Следуя методике, приведенной при решении задачи 1, получаем диаграмму с добавленными в нее логарифмической, степенной и экспоненциальной линиями тренда (рис. 7). Далее, используя полученные уравнения линий тренда, заполняем таблицу значений по прибыли предприятия, включая прогнозируемые значения на 2003 и 2004 гг. (рис. 8).

На рис. 5 и рис. видно, что модели с логарифмическим трендом, соответствует наименьшее значение достоверности аппроксимации

R2 = 0,8659

Наибольшие же значения R2 соответствуют моделям с полиномиальным трендом: квадратичным (R2 = 0,9263) и кубическим (R2 = 0,933).

Задача 3

С таблицей данных о прибыли автотранспортного предприятия за 1995-2002 гг., приведенной в задаче 1, необходимо выполнить следующие действия.

    Получить ряды данных для линейной и экспоненциальной линии тренда с использованием функций ТЕНДЕНЦИЯ и РОСТ.

    Используя функции ТЕНДЕНЦИЯ и РОСТ, составить прогноз о прибыли предприятия на 2003 и 2004 гг.

    Для исходных данных и полученных рядов данных построить диаграмму.

Решение задачи

Воспользуемся рабочей таблицей задачи 1 (см. рис. 4). Начнем с функции ТЕНДЕНЦИЯ:

    выделяем диапазон ячеек D4:D11, который следует заполнить значениями функции ТЕНДЕНЦИЯ, соответствующими известным данным о прибыли предприятия;

    вызываем команду Функция из меню Вставка. В появившемся диалоговом окне Мастер функций выделяем функцию ТЕНДЕНЦИЯ из категории Статистические, после чего щелкаем по кнопке ОК. Эту же операцию можно осуществить нажатием кнопки (Вставка функции) стандартной панели инструментов.

    В появившемся диалоговом окне Аргументы функции вводим в поле Известные_значения_y диапазон ячеек C4:C11; в поле Известные_значения_х - диапазон ячеек B4:B11;

    чтобы вводимая формула стала формулой массива, используем комбинацию клавиш + + .

Введенная нами формула в строке формул будет иметь вид: ={ТЕНДЕНЦИЯ(C4:C11;B4:B11)}.

В результате диапазон ячеек D4:D11 заполняется соответствующими значениями функции ТЕНДЕНЦИЯ (рис. 9).

Для составления прогноза о прибыли предприятия на 2003 и 2004 гг. необходимо:

    выделить диапазон ячеек D12:D13, куда будут заноситься значения, прогнозируемые функцией ТЕНДЕНЦИЯ.

    вызвать функцию ТЕНДЕНЦИЯ и в появившемся диалоговом окне Аргументы функции ввести в поле Известные_значения_y - диапазон ячеек C4:C11; в поле Известные_значения_х - диапазон ячеек B4:B11; а в поле Новые_значения_х - диапазон ячеек B12:B13.

    превратить эту формулу в формулу массива, используя комбинацию клавиш Ctrl + Shift + Enter.

    Введенная формула будет иметь вид: ={ТЕНДЕНЦИЯ(C4:C11;B4:B11;B12:B13)}, а диапазон ячеек D12:D13 заполнится прогнозируемыми значениями функции ТЕНДЕНЦИЯ (см. рис. 9).

Аналогично заполняется ряд данных с помощью функции РОСТ, которая используется при анализе нелинейных зависимостей и работает точно так же, как ее линейный аналог ТЕНДЕНЦИЯ.

На рис.10 представлена таблица в режиме показа формул.

Для исходных данных и полученных рядов данных построена диаграмма, изображенная на рис. 11.

Задача 4

С таблицей данных о поступлении в диспетчерскую службу автотранспортного предприятия заявок на услуги за период с 1 по 11 число текущего месяца необходимо выполнить следующие действия.

    Получить ряды данных для линейной регрессии: используя функции НАКЛОН и ОТРЕЗОК; используя функцию ЛИНЕЙН.

    Получить ряд данных для экспоненциальной регрессии с использованием функции ЛГРФПРИБЛ.

    Используя вышеназванные функции, составить прогноз о поступлении заявок в диспетчерскую службу на период с 12 по 14 число текущего месяца.

    Для исходных и полученных рядов данных построить диаграмму.

Решение задачи

Отметим, что, в отличие от функций ТЕНДЕНЦИЯ и РОСТ, ни одна из перечисленных выше функций (НАКЛОН, ОТРЕЗОК, ЛИНЕЙН, ЛГРФПРИБ) не является регрессией. Эти функции играют лишь вспомогательную роль, определяя необходимые параметры регрессии.

Для линейной и экспоненциальной регрессий, построенных с помощью функций НАКЛОН, ОТРЕЗОК, ЛИНЕЙН, ЛГРФПРИБ, внешний вид их уравнений всегда известен, в отличие от линейной и экспоненциальной регрессий, соответствующих функциям ТЕНДЕНЦИЯ и РОСТ.

1 . Построим линейную регрессию, имеющую уравнение:

y = mx+b

с помощью функций НАКЛОН и ОТРЕЗОК, причем угловой коэффициент регрессии m определяется функцией НАКЛОН, а свободный член b - функцией ОТРЕЗОК.

Для этого осуществляем следующие действия:

    заносим исходную таблицу в диапазон ячеек A4:B14;

    значение параметра m будет определяться в ячейке С19. Выбираем из категории Статистические функцию Наклон; заносим диапазон ячеек B4:B14 в поле известные_значения_y и диапазон ячеек А4:А14 в поле известные_значения_х. В ячейку С19 будет введена формула: =НАКЛОН(B4:B14;A4:A14);

    по аналогичной методике определяется значение параметра b в ячейке D19. И ее содержимое будет иметь вид: =ОТРЕЗОК(B4:B14;A4:A14). Таким образом, необходимые для построения линейной регрессии значения параметров m и b будут сохраняться соответственно в ячейках C19, D19;

    далее заносим в ячейку С4 формулу линейной регрессии в виде: =$C*A4+$D. В этой формуле ячейки С19 и D19 записаны с абсолютными ссылками (адрес ячейки не должен меняться при возможном копировании). Знак абсолютной ссылки $ можно набить либо с клавиатуры, либо с помощью клавиши F4, предварительно установив курсор на адресе ячейки. Воспользовавшись маркером заполнения, копируем эту формулу в диапазон ячеек С4:С17. Получаем искомый ряд данных (рис. 12). В связи с тем, что количество заявок - целое число, следует установить на вкладке Число окна Формат ячеек числовой формат с числом десятичных знаков 0.

2 . Теперь построим линейную регрессию, заданную уравнением:

y = mx+b

с помощью функции ЛИНЕЙН.

Для этого:

    вводим в диапазон ячеек C20:D20 функцию ЛИНЕЙН как формулу массива: ={ЛИНЕЙН(B4:B14;A4:A14)}. В результате получаем в ячейке C20 значение параметра m, а в ячейке D20 - значение параметра b;

    вводим в ячейку D4 формулу: =$C*A4+$D;

    копируем эту формулу с помощью маркера заполнения в диапазон ячеек D4:D17 и получаем искомый ряд данных.

3 . Строим экспоненциальную регрессию, имеющую уравнение:

с помощью функции ЛГРФПРИБЛ оно выполняется аналогично:

    в диапазон ячеек C21:D21 вводим функцию ЛГРФПРИБЛ как формулу массива: ={ ЛГРФПРИБЛ (B4:B14;A4:A14)}. При этом в ячейке C21 будет определено значение параметра m, а в ячейке D21 - значение параметра b;

    в ячейку E4 вводится формула: =$D*$C^A4;

    с помощью маркера заполнения эта формула копируется в диапазон ячеек E4:E17, где и расположится ряд данных для экспоненциальной регрессии (см. рис. 12).

На рис. 13 приведена таблица, где видны используемые нами функции с необходимыми диапазонами ячеек, а также формулы.

Величина R 2 называется коэффициентом детерминации .

Задачей построения регрессионной зависимости является нахождение вектора коэффициентов m модели (1) при котором коэффициент R принимает максимальное значение.

Для оценки значимости R применяется F-критерий Фишера, вычисляемый по формуле

где n - размер выборки (количество экспериментов);

k - число коэффициентов модели.

Если F превышает некоторое критическое значение для данных n и k и принятой доверительной вероятности, то величина R считается существенной. Таблицы критических значений F приводятся в справочниках по математической статистике.

Таким образом, значимость R определяется не только его величиной, но и соотношением между количеством экспериментов и количеством коэффициентов (параметров) модели. Действительно, корреляционное отношение для n=2 для простой линейной модели равно 1 (через 2 точки на плоскости можно всегда провести единственную прямую). Однако если экспериментальные данные являются случайными величинами, доверять такому значению R следует с большой осторожностью. Обычно для получения значимого R и достоверной регрессии стремятся к тому, чтобы количество экспериментов существенно превышало количество коэффициентов модели (n>k).

Для построения линейной регрессионной модели необходимо:

1) подготовить список из n строк и m столбцов, содержащий экспериментальные данные (столбец, содержащий выходную величину Y должен быть либо первым, либо последним в списке); для примера возьмем данные предыдущего задания, добавив столбец с названием "№ периода", пронумеруем номера периодов от 1 до 12. (это будут значения Х )

2) обратиться к меню Данные/Анализ данных/Регрессия

Если пункт "Анализ данных" в меню "Сервис" отсутствует, то следует обратиться к пункту "Надстройки" того же меню и установить флажок "Пакет анализа".

3) в диалоговом окне "Регрессия" задать:

· входной интервал Y;

· входной интервал X;

· выходной интервал - верхняя левая ячейка интервала, в который будут помещаться результаты вычислений (рекомендуется разместить на новом рабочем листе);

4) нажать "Ok" и проанализировать результаты.

КУРСОВАЯ РАБОТА

Аппроксимация функции методом наименьших квадратов


Введение

эмпирический mathcad аппроксимация

Целью курсовой работы является углубление знаний по информатике, развитие и закрепление навыков работы с табличным процессором Microsoft Excel и MathCAD. Применение их для решения задач с помощью ЭВМ из предметной области, связанной с исследованиями.

В каждом задании формулируются условия задачи, исходные данные, форма выдачи результатов, указываются основные математические зависимости для решения задачи Контрольный расчет позволяет убедиться в правильности работы программы.

Понятие аппроксимация представляет собой приближенное выражение каких-либо математических объектов (например, чисел или функций) через другие более простые, более удобные в использовании или просто более известные. В научных исследованиях аппроксимация применяется для описания, анализа, обобщения и дальнейшего использования эмпирических результатов.

Как известно, между величинами может существовать точная (функциональная) связь, когда одному значению аргумента соответствует одно определенное значение, и менее точная (корреляционная) связь, когда одному конкретному значению аргумента соответствует приближенное значение или некоторое множество значений функции, в той или иной степени близких друг к другу. При ведении научных исследований, обработке результатов наблюдения или эксперимента обычно приходиться сталкиваться со вторым вариантом. При изучении количественных зависимостей различных показателей, значения которых определяются эмпирически, как правило, имеется некоторая их вариабельность. Частично она задается неоднородностью самих изучаемых объектов неживой и, особенно, живой природы, частично обуславливается погрешностью наблюдения и количественной обработке материалов. Последнюю составляющую не всегда удается исключить полностью, можно лишь минимизировать ее тщательным выбором адекватного метода исследования и аккуратностью работы.

Специалисты в области автоматизации технологических процессов и производств имеют дело с большим объёмом экспериментальных данных, для обработки которых используется компьютер. Исходные данные и полученные результаты вычислений могут быть представлены в табличной форме, используя табличные процессоры (электронные таблицы) и, в частности, Excel. Курсовая работа по информатике позволяет студенту закрепить и развить навыки работы с помощью базовых компьютерных технологий при решении задач в сфере профессиональной деятельности.- система компьютерной алгебры из класса систем автоматизированного проектирования, ориентированная на подготовку интерактивных документов с вычислениями и визуальным сопровождением, отличается легкостью использования и применения для коллективной работы.


1. Общие сведения


Очень часто, особенно при анализе эмпирических данных возникает необходимость найти в явном виде функциональную зависимость между величинами x и у , которые получены в результате измерений.

При аналитическом исследовании взаимосвязи между двумя величинами x и y производят ряд наблюдений и в результате получается таблица значений:


xx 1 x 1 x i X n уy 1 y 1 y i Y n

Эта таблица обычно получается как итог каких-либо экспериментов, в которых x, (независимая величина) задается экспериментатором, а у, получается в результате опыта. Поэтому эти значения у, будем называть эмпирическими или опытными значениями.

Между величинами x и y существует функциональная зависимость, но ее аналитический вид обычно неизвестен, поэтому возникает практически важная задача - найти эмпирическую формулу


y = f(x; a1, a2,…, am), (1)


(где a 1 , a 2 ,…, a m - параметры), значения которой при x = x, возможно мало отличались бы от опытных значений у, (i = 1,2,…, п) .

Обычно указывают класс функций (например, множество линейных, степенных, показательных и т.п.) из которого выбирается функция f (x) , и далее определяются наилучшие значения параметров.

Если в эмпирическую формулу (1) подставить исходные x, то получим теоретические значения

Y T i = f (x i ; a1, a2……a m ) , где i = 1,2,…, n .


Разности y i T - у i , называются отклонениями и представляют собой расстояния по вертикали от точек M i до графика эмпирической функции.

Согласно методу наименьших квадратов наилучшими коэффициентами a 1 , a 2 ,…, a m считаются те, для которых сумма квадратов отклонений найденной эмпирической функции от заданных значений функции



будет минимальной.

Поясним геометрический смысл метода наименьших квадратов.

Каждая пара чисел (x i , y i ) из исходной таблицы определяет точку M i на плоскости XOY. Используя формулу (1) при различных значениях коэффициентов a 1 , a 2 ,…, a m можно построить ряд кривых, которые являются графиками функции (1). Задача состоит в определении коэффициентов a 1 , a 2 ,…, a m таким образом, чтобы сумма квадратов расстояний по вертикали от точек M i (x i , y i ) до графика функции (1) была наименьшей (рис. 1).



Построение эмпирической формулы состоит из двух этапов: выяснение общего вида этой формулы и определение ее наилучших параметров.

Если неизвестен характер зависимости между данными величинами x и y , то вид эмпирической зависимости является произвольным. Предпочтение отдается простым формулам, обладающим хорошей точностью. Удачный выбор эмпирической формулы в значительной мере зависит от знаний исследователя в предметной области, используя которые он может указать класс функций из теоретических соображений. Большое значение имеет изображение полученных данных в декартовых или в специальных системах координат (полулогарифмической, логарифмической и т.д.). По положению точек можно примерно угадать общий вид зависимости путем установления сходства между построенным графиком и образцами известных кривых.

Определение наилучших коэффициентов a 1 , a 2,…, a m входящих в эмпирическую формулу производят хорошо известным аналитическими методами.

Для того, чтобы найти набор коэффициентовa a 1 , a 2 …..a m , которые доставляют минимум функции S, определяемой формулой (2), используем необходимое условие экстремума функции нескольких переменных - равенство нулю частных производных.

В результате получим нормальную систему для определения коэффициентов a i (i = 1,2,…, m) :



Таким образом, нахождение коэффициентов a i сводится к решению системы (3). Эта система упрощается, если эмпирическая формула (1) линейна относительно параметров a i , тогда система (3) - будет линейной.


1.1 Линейная зависимость


Конкретный вид системы (3) зависит от того, из какого класса эмпирических формул мы ищем зависимость (1). В случае линейной зависимости y = a 1 + a 2 x система (3) примет вид:


Эта линейная система может быть решена любым известным методом (методом Гаусса, простых итераций, формулами Крамера).


1.2 Квадратичная зависимость


В случае квадратичной зависимости y = a 1 + a 2 x + a 3x2 система (3) примет вид:



1.3 Экспоненциальная зависимость


В ряде случаев в качестве эмпирической формулы берут функцию в которую неопределенные коэффициенты входят нелинейно. При этом иногда задачу удается линеаризовать т.е. свести к линейной. К числу таких зависимостей относится экспоненциальная зависимость


y = a 1 * e a2x (6)


где a1 иa2, неопределенные коффициенты.

Линеаризация достигается путем логарифмирования равенства (6), после чего получаем соотношение

ln y = ln a1 + a2x(7)


Обозначим ln у и ln a x соответственно через t и c , тогда зависимость (6) может быть записана в виде t = a 1 + a 2 х , что позволяет применить формулы (4) с заменой a 1 на c и у i на t i


1.4 Элементы теории корреляции


График восстановленной функциональной зависимости у(х) по результатам измерений (хi , у i ), i = 1,2, K , n называется кривой регрессии. Для проверки согласия построенной кривой регрессии с результатами эксперимента обычно вводят следующие числовые характеристики: коэффициент корреляции (линейная зависимость), корреляционное отношение и коэффициент детерминированности. При этом результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке этой таблицы приводятся численности n iJ - тех пар (х, у) , компоненты которых попадают в соответствующие интервалы группировки по каждой переменной. Предполагая длины интервалов группировки (по каждой переменной) равными между собой, выбирают центры хi (соответственно у i ) этих интервалов и числа n iJ - в качестве основы для расчетов.

Коэффициент корреляции является мерой линейной связи между зависимыми случайными величинами: он показывает, насколько хорошо в среднем может быть представлена одна из величин в виде линейной функции от другой.

Коэффициент корреляции вычисляется по формуле:


где, и - среднее арифметическое значение соответственно х и у .

Коэффициент корреляции между случайными величинами по абсолютной величине не превосходит 1. Чем ближе |р| к 1, тем теснее линейная связь между х и у.

В случае нелинейной корреляционной связи условные средние значения располагаются около кривой линии. В этом случае в качестве характеристики силы связи рекомендуется использовать корреляционное отношение, интерпретация которого не зависит от вида исследуемой зависимости.

Корреляционное отношение вычисляется по формуле:



где n i = , n f = , а числитель характеризует рассеяние условных средних у, около безусловного среднего y .

Всегда. Равенство = 0 соответствует некоррелированным случайным величинам; = 1 тогда и только тогда, когда имеется точная функциональная связь междуy и x. В случае линейной зависимости y от x корреляционное отношение совпадает с квадратом коэффициента корреляции. Величина - ? 2 используется в качестве индикатора отклонения регрессии от линейной.

Корреляционное отношение является мерой корреляционной связи y с x в какой угодно форме, но не может дать представления о степени приближенности эмпирических данных к специальной форме. Чтобы выяснить насколько точно построенная кривая отражает эмпирические данные вводится еще одна характеристика - коэффициент детерминированности.

Для его описания рассмотрим следующие величины. - полная сумма квадратов, где среднее значение.

Можно доказать следующее равенство

Первое слагаемое равно Sост = и называется остаточной суммой квадратов. Оно характеризует отклонение экспериментальных от теоритических.

Второе слагаемое равно Sрегр = 2 и называется регрессионной суммой квадратов и оно характеризует разброс данных.

Очевидно, что справедливо следующее равенство Sполн = Sост + Sрегр.

Коэффициент детерминированности определяется по формуле:



Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента детерминированности r 2 , который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y

Коэффициент детерминированности всегда не превосходит корреляционное отношение. В случае когда выполняется равенство r 2 = то можно считать, что построенная эмпирическая формула наиболее точно отражает эмпирические данные.


2. Постановка задачи


1. Используя метод наименьших квадратов функцию, заданную таблично, аппроксимировать

а) многочленом первой степени;

б) многочленом второй степени;

в) экспоненциальной зависимостью.

Для каждой зависимости вычислить коэффициент детерминированности.

Вычислить коэффициент корреляции (только в случае а).

Для каждой зависимости построить линию тренда.

Используя функцию ЛИНЕЙН вычислить числовые характеристики зависимости от.

Сравнить свои вычисления с результатами, полученными при помощи функции ЛИНЕЙН.

Сделать вывод, какая из полученных формул наилучшим образом аппроксимирует функцию.

Написать программу на одном из языков программирования и сравнить результаты счета с полученными выше.


3. Исходные данные


Функция задана рисунком 1.



4. Расчет аппроксимаций в табличном процессоре Excel


Для проведения расчетов целесообразно воспользоваться табличным процессором Microsoft Excel. И данные расположить как показано на рисунке 2.



Для этого заносим:

·в ячейки A6:A30 заносим значения xi.

·в ячейки B6:B30 заносим значения уi.

·в ячейку C6 вводим формулу =А6^2.

·в ячейки C7:C30 эта формула копируется.

·в ячейку D6 вводим формулу =А6*В6.

·в ячейки D7:D30 эта формула копируется.

·в ячейку F6 вводим формулу =А6^4.

·в ячейки F7:F30 эта формула копируется.

·в ячейку G6 вводим формулу =А6^2*В6.

·в ячейки G7:G30 эта формула копируется.

·в ячейку H6 вводим формулу =LN(B6).

·в ячейки H7:H30 эта формула копируется.

·в ячейку I6 вводим формулу =A6*LN(B6).

·в ячейки I7:I30 эта формула копируется. Последующие шаги делаем с помощью автосуммирования

·в ячейку А33 вводим формулу =СУММ (А6:А30).

·в ячейку B33 вводим формулу =СУММ (В6:В30).

·в ячейку C33 вводим формулу =СУММ (С6:С30).

·в ячейку D33 вводим формулу =СУММ (D6:D30).

·в ячейку E33 вводим формулу =СУММ (E6:E30).

·в ячейку F33 вводим формулу =СУММ (F6:F30).

·в ячейку G33 вводим формулу =СУММ (G6:G30).

·в ячейку H33 вводим формулу =СУММ (H6:H30).

·в ячейку I33 вводим формулу =СУММ (I6:I30).

Аппроксимируем функцию y = f (x) линейной функцией y = a 1 + a 2x. Для определения коэффициентов a1 и a2 воспользуемся системой (4). Используя итоговые суммы таблицы 2, расположенные в ячейках A33, B33, C33 и D33, запишем систему (4) в виде



решив которую, получим a1 = -24,7164 и a2 = 11,63183

Таким образом, линейная аппроксимация имеет вид y= -24,7164 + 11,63183х (12)

Решение системы (11) проводили, пользуясь средствами Microsoft Excel. Результаты представлены на рисунке 3:



В таблице в ячейках A38:B39 записана формула {=МОБР (A35:B36)}. В ячейках E38:E39 записана формула {=МУМНОЖ (A38:B39, C35:C36)}.


Далее аппроксимируем функцию y = f (x) квадратичной функцией y = a 1 + a 2 x + a 3 x 2. Для определения коэффициентов a1, a2 и a3 воспользуемся системой (5). Используя итоговые суммы таблицы 2, расположенные в ячейках A33, B33, C33, D33, E33, F33 и G33 запишем систему (5) в виде:



Решив которую, получим a1 = 1,580946, a2 = -0,60819 и a3 = 0,954171 (14)

Таким образом, квадратичная аппроксимация имеет вид:

у = 1,580946 -0,60819х +0,954171 х 2

Решение системы (13) проводили, пользуясь средствами Microsoft Excel. Результаты представлены на рисунке 4.



В таблице в ячейках A46:C48 записана формула {=МОБР (A41:C43)}. В ячейках F46:F48 записана формула {=МУМНОЖ (A41:C43, D46:D48)}.

Теперь аппроксимируем функцию y = f (х) экспоненциальной функцией y = a 1 e a2x . Для определения коэффициентов a 1 и a 2 прологарифмируем значения y i и используя итоговые суммы таблицы 2, расположенные в ячейках A26, C26, H26 и I26 получим систему:



где с = ln(a 1 ).

Решив систему (10) найдем с = 0,506435, a2 = 0.409819.

После потенцирования получим a1 = 1,659365.

Таким образом, экспоненциальная аппроксимация имеет вид y = 1,659365*e 0,4098194x

Решение системы (15) проводили, пользуясь средствами Microsoft Excel. Результаты представлены на рисунке 5.


В таблице в ячейках A55:B56 записана формула {=МОБР (A51:B52)}. В ячейках E54:E56 записана формула {=МУМНОЖ (A51:B52, С51:С52)}. В ячейке E56 записана формула =EXP(E54).

Вычислим среднее арифметическое x и у по формулам:



Результаты расчета x и y средствами Microsoft Excel представлены на рисунке 6.



В ячейке B58 записана формула =A33/25. В ячейке B59 записана формула =B33/25.

Таблица 2


Поясним как таблица на рисунке 7 составляется.

Ячейки A6:A33 и B6:B33 уже заполнены (см. рис. 2).

·в ячейку J6 вводим формулу =(A6-$B$58)*(B6-$B$59).

·в ячейки J7:J30 эта формула копируется.

·в ячейку K6 вводим формулу =(А6-$В$58)^2.

·в ячейки K7:K30 эта формула копируется.

·в ячейку L6 вводим формулу =(В1-$В$59)^2.

·в ячейки L7:L30 эта формула копируется.

·в ячейку M6 вводим формулу =($Е$38+$Е$39*А6-В6)^2.

·в ячейки M7:M30 эта формула копируется.

·в ячейку N6 вводим формулу =($F$46 +$F$47*A6 +$F$48*A6 Л6-В6)^2.

·в ячейки N7:N30 эта формула копируется.

·в ячейку O6 вводим формулу =($Е$56*ЕХР ($Е$55*А6) - В6)^2.

·в ячейки O7:O30 эта формула копируется.

Последующие шаги делаем с помощью автосуммирования.

·в ячейку J33 вводим формулу =CYMM (J6:J30).

·в ячейку K33 вводим формулу =СУММ (К6:К30).

·в ячейку L33 вводим формулу =CYMM (L6:L30).

·в ячейку M33 вводим формулу =СУММ (М6:М30).

·в ячейку N33 вводим формулу =СУММ (N6:N30).

·в ячейку O33 вводим формулу =СУММ (06:030).

Теперь проведем расчеты коэффициента корреляции по формуле (8) (только для линейной аппроксимации) и коэффициента детерминированности по формуле (10). Результаты расчетов средствами Microsoft Ехcеl представлены на рисунке 7.



В таблице 8 в ячейке B61 записана формула =J33/(K33*L33^(1/2). В ячейке B62 записана формула =1 - M33/L33. В ячейке B63 записана формула =1 - N33/L33. В ячейке B64 записана формула =1 - O33/L33.

Анализ результатов расчетов показывает, что квадратичная аппроксимация наилучшим образом описывает экспериментальные данные.


4.1 Построение графиков в Excel


Выделим ячейки A1:A25, после этого обратимся к мастеру диаграмм. Выберем точечный график. После того как диаграмма будет построена, щелкнем правой кнопкой мышки на линии графика и выберем добавить линию тренда (соответственно линейную, экспоненциальную, степенную и полиномиальную второй степени).

График линейной аппроксимации


График квадратичной аппроксимации


График экспоненциальной аппроксимации.


5. Аппроксимация функции с помощью MathCAD


Аппроксимация данных с учетом их статистических параметров относится к задачам регрессии. Они обычно возникают при обработке экспериментальных данных, полученных в результате измерений процессов или физических явлений, статистических по своей природе (как, например, измерения в радиометрии и ядерной геофизике), или на высоком уровне помех (шумов). Задачей регрессионного анализа является подбор математических формул, наилучшим образом описывающих экспериментальные данные.


.1 Линейная регрессия


Линейная регрессия в системе Mathcad выполняется по векторам аргумента Х и отсчетов Y функциями:

intercept (x, y) - вычисляет параметр а 1 , смещение линии регрессии по вертикали (см. рис.)

slope (x, y) - вычисляет параметр a 2 , угловой коэффициент линии регрессии (см. рис.)

y(x) = a1+a2*x


Функция corr (у, y(x)) вычисляет коэффициент корреляции Пирсона. Чем он ближе к 1, тем точнее обрабатываемые данные соответствуют линейной зависимости (см. рис.)

.2 Полиноминальная регрессия


Одномерная полиномиальная регрессия с произвольной степенью n полинома и с произвольными координатами отсчетов в Mathcad выполняется функциями:

regress (х, у, n) - вычисляет вектор S, в составе которого находятся коэффициенты ai полинома n -й степени;

Значения коэффициентов ai могут быть извлечены из вектора S функцией submatrix (S, 3, length(S) - 1, 0, 0).

Полученные значения коэффициентов используем в уравнении регрессии


y(x) = a1+a2*x+a3*x 2 (см. рис.)

.3 Нелинейная регрессия


Для простых типовых формул аппроксимации предусмотрен ряд функций нелинейной регрессии, в которых параметры функций подбираются программой Mathcad.

К их числу относится функция expfit (x, y, s), которая возвращает вектор, содержащий коэффициенты a1, a2 и a3 экспоненциальной функции

y(x) = a1 ^exp (a2 x) + a3. В вектор S вводятся начальные значения коэффициентов a1, a2 и a3 первого приближения.


Заключение


Анализ результатов расчетов показывает, что линейная аппроксимация наилучшим образом описывает экспериментальные данные.

Результаты полученные с помощью программы MathCAD полностью совпадают со значениями полученными с помощью Excel. Это говорит о верности вычислений.


Список используемой литературы

  1. Информатика: Учебник / Под ред. проф. Н.В. Макаровой. М.: Финансы и статистика 2007
  2. Информатика: Практикум по технологии работы на компьютере / Под. Ред. проф. Н.В. Макаровой. М Финансы и статистика, 2011.
  3. Н.С. Пискунов. Дифференциальное и интегральное исчисление, 2010.
  4. Информатика, Аппроксимация методом наименьших квадратов, методические указания, Санкт-Петербург, 2009.
Репетиторство

Нужна помощь по изучению какой-либы темы?

Наши специалисты проконсультируют или окажут репетиторские услуги по интересующей вас тематике.
Отправь заявку с указанием темы прямо сейчас, чтобы узнать о возможности получения консультации.

3. Аппроксимация функций с помощью метода

наименьших квадратов

Метод наименьших квадратов применяется при обработке результатов эксперимента для аппроксимации (приближения) экспериментальных данных аналитической формулой. Конкретный вид формулы выбирается, как правило, из физических соображений. Такими формулами могут быть:

и другие.

Сущность метода наименьших квадратов состоит в следующем. Пусть результаты измерений представлены таблицей:

Таблица 4

x n

y n

(3.1)

где f - известная функция, a 0 , a 1 , …, a m - неизвестные постоянные параметры, значения которых надо найти. В методе наименьших квадратов приближение функции (3.1) к экспериментальной зависимости считается наилучшим, если выполняется условие

(3.2)

то есть сумм a квадратов отклонений искомой аналитической функции от экспериментальной зависимости должна быть минимальна .

Заметим, что функция Q называется невязкой.


Так как невязка

то она имеет минимум. Необходимым условием минимума функции нескольких переменных является равенство нулю всех частных производных этой функции по параметрам. Таким образом, отыскание наилучших значений параметров аппроксимирующей функции (3.1), то есть таких их значений, при которых Q = Q (a 0 , a 1 , …, a m ) минимальна, сводится к решению системы уравнений:

(3.3)

Методу наименьших квадратов можно дать следующее геометрическое истолкование: среди бесконечного семейства линий данного вида отыскивается одна линия, для которой сумма квадратов разностей ординат экспериментальных точек и соответствующих им ординат точек, найденных по уравнению этой линии, будет наименьшей.

Нахождение параметров линейной функции

Пусть экспериментальные данные надо представить линейной функцией:

Требуется подобрать такие значения a и b , для которых функция

(3.4)

будет минимальной. Необходимые условия минимума функции (3.4) сводятся к системе уравнений:

После преобразований получаем систему двух линейных уравнений с двумя неизвестными:

(3.5)

решая которую , находим искомые значения параметров a и b .

Нахождение параметров квадратичной функции

Если аппроксимирующей функцией является квадратичная зависимость

то её параметры a , b , c находят из условия минимума функции:

(3.6)

Условия минимума функции (3.6) сводятся к системе уравнений:


После преобразований получаем систему трёх линейных уравнений с тремя неизвестными:

(3.7)

при решении которой находим искомые значения параметров a , b и c .

Пример . Пусть в результате эксперимента получена следующая таблица значений x и y :

Таблица 5

y i

0,705

0,495

0,426

0,357

0,368

0,406

0,549

0,768

Требуется аппроксимировать экспериментальные данные линейной и квадратичной функциями.

Решение. Отыскание параметров аппроксимирующих функций сводится к решению систем линейных уравнений (3.5) и (3.7). Для решения задачи воспользуемся процессором электронных таблиц Excel .

1. Сначала сцепим листы 1 и 2. Занесём экспериментальные значения x i и y i в столбцы А и В, начиная со второй строки (в первой строке поместим заголовки столбцов). Затем для этих столбцов вычислим суммы и поместим их в десятой строке.

В столбцах C – G разместим соответственно вычисление и суммирование

2. Расцепим листы.Дальнейшие вычисления проведём аналогичным образом для линейной зависимости на Листе 1и для квадратичной зависимости на Листе 2.

3. Под полученной таблицей сформируем матрицу коэффициентов и вектор-столбец свободных членов. Решим систему линейных уравнений по следующему алгоритму:

Для вычисления обратной матрицы и перемножения матриц воспользуемся Мастером функций и функциями МОБР и МУМНОЖ .

4. В блоке ячеек H2: H 9 на основе полученных коэффициентов вычислим значенияаппроксимирующего полинома y i выч ., в блоке I 2: I 9 – отклонения D y i = y i эксп . - y i выч .,в столбце J – невязку:

Полученные таблицы и построенные с помощью Мастера диаграмм графики приведёны на рисунках6, 7, 8.


Рис. 6. Таблица вычисления коэффициентов линейной функции,

аппроксимирующей экспериментальные данные.


Рис. 7. Таблица вычисления коэффициентов квадратичной функции,

аппроксимирующей экспериментальные данные.


Рис. 8. Графическое представление результатов аппроксимации

экспериментальных данных линейной и квадратичной функциями.

Ответ. Аппроксимировали экспериментальные данные линейной зависимостью y = 0,07881 x + 0,442262 c невязкой Q = 0,165167 и квадратичной зависимостью y = 3,115476 x 2 – 5,2175 x + 2,529631 c невязкой Q = 0,002103 .

Задания. Аппроксимировать функцию, заданную таблично, линейной и квадратичной функциями.

Таблица 6

№0

x

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

y

3,030

3,142

3,358

3,463

3,772

3,251

3,170

3,665

1

3,314

3,278

3,262

3,292

3,332

3,397

3,487

3,563

2

1,045

1,162

1,264

1,172

1,070

0,898

0,656

0,344

3

6,715

6,735

6,750

6,741

6,645

6,639

6,647

6,612

4

2,325

2,515

2,638

2,700

2,696

2,626

2,491

2,291

5

1.752

1,762

1,777

1,797

1,821

1,850

1,884

1,944

6

1,924

1,710

1,525

1,370

1,264

1,190

1,148

1,127

7

1,025

1,144

1,336

1,419

1,479

1,530

1,568

1,248

8

5,785

5,685

5,605

5,545

5,505

5,480

5,495

5,510

9

4,052

4,092

4,152

4,234

4,338

4,468

4,599