Jednoduchý lineární regresní model. Lineární regresní model Vlastnosti regresního modelu

Byli jsme seznámeni se dvěma jednoduchými technikami pro předběžnou analýzu vztahu mezi dvěma proměnnými – metodou scatterplot a metodou částečného průměru. Nyní přejdeme k popisu jednoduché lineární regrese a zjistíme význam jednotlivých složek regresní funkce.

Jednoduchou regresí rozumíme jednostrannou stochastickou závislost výsledné proměnné pouze na jedné vysvětlující proměnné:

Pokud se na základě úvah odborné teoretické povahy v kombinaci se studiem umístění bodů na rozptylovém diagramu předpokládá lineární povaha závislosti průměrných hodnot výsledné proměnné, pak je tato závislost vyjádřena pomocí lineární regresní funkce. Vzorec (2.8) má v tomto případě tvar

Toto je obecná rovnice pro jednoduchou lineární regresi, kde je vysvětlující proměnná. U této proměnné existují pozorování Neznámé regresní parametry musí být odhadnuty pomocí specifického postupu. Níže, aniž bychom zaváděli další zápis, je budeme nazývat odhady parametrů.

Regresní konstanta. Může být reprezentován jako koeficient pro fiktivní proměnnou, která nabývá hodnoty. Konstanta určuje průsečík regresní přímky s osou pořadnice (obr. 11). Protože v souladu s obecným výkladem regresní rovnice je průměrná hodnota y v bodě, je zřejmé, že ekonomická interpretace je často velmi obtížná nebo dokonce nemožná. Pokud je například na základě experimentálních dat získána regresní rovnice

stanovení závislosti objemu výroby na stálých aktivech (rozměr obou veličin je 1000 marek), pak výklad povede k paradoxnímu výsledku. Totiž, pokud se nevyužívá dlouhodobý majetek, objem výroby bude marek. Teoreticky by v tomto případě měla být rovna nule nebo větší. Ale prakticky informace obsažené v experimentálních datech jsou nedostatečné, aby zabránily takovému paradoxnímu závěru. Konstanta plní nivelační funkci v regresní rovnici. Je třeba zdůraznit, že díky konstantě je regresní funkce bezchybná. Regresní rovnice je interpretovatelná pouze v oblasti akumulace bodů, a proto

Tedy pouze mezi nejmenší a největší pozorovanou hodnotou proměnné x. Pro většinu praktických výzkumů jsou sledované veličiny a y nikoli

Koeficient se nazývá regresní koeficient. Charakterizuje sklon přímky k ose Pokud y označíme úhel, který svírá regresní přímka s osou úsečky, pak (viz obr. I). Regresní koeficient je mírou závislosti proměnné y na proměnné x nebo mírou vlivu, který má změna proměnné x na proměnnou y. Podle rovnice udává průměrnou změnu proměnné y při změně vysvětlující proměnné x o jednotku. Znaménko určuje směr této změny. S kladným regresním koeficientem máme kladnou lineární regresi, což znamená progresivní charakter změny závislé proměnné, jak se zvyšují hodnoty vysvětlující proměnné x. U záporného regresního koeficientu hovoříme o záporné regresi, ve které s rostoucími hodnotami x klesají hodnoty proměnné y. Regresní parametry nejsou bezrozměrné veličiny. Konstanta regresní rovnice má rozměr proměnné y. Dimenze regresního koeficientu je poměr dimenze závislé proměnné k dimenzi vysvětlující proměnné. Zde si všimneme obecné zásady, které se budeme dále držet. Funkce, které popisují vztah mezi zkoumanými proměnnými, musí být lineární s ohledem na odhadované parametry. Po získání numerických odhadů parametrů lze hodnotu vypočítat pomocí regresní rovnice pro každou hodnotu nezávisle proměnné

Rýže. 11. Regresní přímka a její parametry

Hodnoty regresní funkce se nazývají predikované nebo odhadované hodnoty proměnné y pro pevné x. S lineární funkcí tvoří sada předpokládaných hodnot regresní přímku. Jak již bylo zmíněno, v důsledku zkreslujícího vlivu vnějších faktorů-příčin lze pro každou hodnotu pozorovat několik empirických hodnot, to znamená, že každá hodnota odpovídá ve statistickém smyslu rozdělení pravděpodobnosti hodnot proměnné y. Hodnoty regresní funkce

Co je regrese?

Uvažujme dvě spojité proměnné x=(xi, x2, .., x n), y=(y1, y2, ..., yn).

Umístíme body na dvourozměrný bodový graf a řekněme, že máme lineární vztah, pokud jsou data aproximována přímkou.

Pokud tomu věříme y záleží na X a změny v y jsou způsobeny právě změnami v X, můžeme určit regresní přímku (regres y na X), který nejlépe popisuje lineární vztah mezi těmito dvěma proměnnými.

Statistické použití slova regrese pochází z fenoménu známého jako regrese k průměru, připisovaného siru Francisi Galtonovi (1889).

Ukázal, že ačkoli vysocí otcové mívají vysoké syny, průměrná výška synů je nižší než u jejich vysokých otců. Průměrná výška synů „regresovala“ a „posunula se dozadu“ směrem k průměrné výšce všech otců v populaci. Vysocí otcové tak mají v průměru nižší (ale stále poměrně vysoké) syny a nižší otcové vyšší (ale stále poměrně nízké) syny.

Regresní linie

Matematická rovnice, která odhaduje jednoduchou (párovou) lineární regresní přímku:

X nazývaná nezávislá proměnná nebo prediktor.

Y- závislá proměnná nebo proměnná odezvy. To je hodnota, kterou očekáváme y(v průměru), pokud známe hodnotu X, tj. je "předpokládaná hodnota" y»

  • A- volný člen (průsečík) vyhodnocovací přímky; toto je význam Y, Když x=0(Obr. 1).
  • b- sklon nebo sklon odhadované čáry; představuje částku, o kterou Y se v průměru zvýší, pokud zvýšíme X pro jednu jednotku.
  • A A b se nazývají regresní koeficienty odhadované přímky, i když se tento termín často používá pouze pro b.

Párová lineární regrese může být rozšířena tak, aby zahrnovala více než jednu nezávislou proměnnou; v tomto případě je znám jako vícenásobná regrese.

Obr. 1. Lineární regresní přímka znázorňující průsečík a a sklon b (množství Y se zvyšuje, když se x zvyšuje o jednu jednotku)

Metoda nejmenších čtverců

Provádíme regresní analýzu pomocí vzorku pozorování kde A A b- výběrové odhady skutečných (obecných) parametrů α a β, které určují lineární regresní přímku v populaci (obecné populaci).

Nejjednodušší metoda pro stanovení koeficientů A A b je metoda nejmenších čtverců(MNC).

Přizpůsobení se posoudí pohledem na zbytky (vertikální vzdálenost každého bodu od čáry, např. zbytek = pozorovaný y- předpovězeno y, Rýže. 2).

Nejvhodnější čára je zvolena tak, aby součet druhých mocnin zbytků byl minimální.

Rýže. 2. Lineární regresní čára se znázorněnými rezidui (svislé tečkované čáry) pro každý bod.

Předpoklady lineární regrese

Pro každou pozorovanou hodnotu je tedy zbytek roven rozdílu a odpovídající predikované hodnotě.Každý zbytek může být kladný nebo záporný.

Rezidua můžete použít k testování následujících předpokladů za lineární regresí:

  • Zbytky jsou normálně rozděleny s průměrem nula;

Pokud jsou předpoklady linearity, normality a/nebo konstantního rozptylu sporné, můžeme transformovat nebo vypočítat novou regresní přímku, pro kterou jsou tyto předpoklady splněny (například použít logaritmickou transformaci atd.).

Anomální hodnoty (odlehlé hodnoty) a body vlivu

Pokud je "vlivné" pozorování vynecháno, změní jeden nebo více odhadů parametrů modelu (tj. sklon nebo průsečík).

Odlehlá hodnota (pozorování, které není konzistentní s většinou hodnot v souboru dat) může být „vlivným“ pozorováním a lze jej snadno vizuálně detekovat prohlédnutím dvourozměrného bodového grafu nebo reziduálního grafu.

Jak pro odlehlé hodnoty, tak pro „vlivná“ pozorování (body) se používají modely s jejich zahrnutím i bez něj a pozornost je věnována změnám v odhadech (regresní koeficienty).

Při provádění analýzy byste neměli automaticky zahazovat odlehlé hodnoty nebo body vlivu, protože jejich pouhé ignorování může ovlivnit získané výsledky. Vždy si prostudujte důvody těchto odlehlých hodnot a analyzujte je.

Hypotéza lineární regrese

Při konstrukci lineární regrese se testuje nulová hypotéza, že obecný sklon regresní přímky β je roven nule.

Pokud je sklon přímky nulový, neexistuje lineární vztah mezi a: změna nemá vliv

Chcete-li otestovat nulovou hypotézu, že skutečný sklon je nulový, můžete použít následující algoritmus:

Vypočítejte testovací statistiku rovnou poměru , který podléhá rozdělení se stupni volnosti, kde je směrodatná chyba koeficientu


,

- odhad rozptylu zbytků.

Pokud je dosaženo hladiny významnosti, je obvykle nulová hypotéza zamítnuta.


kde je procentní bod rozdělení se stupni volnosti, který udává pravděpodobnost oboustranného testu

Toto je interval, který obsahuje obecný sklon s pravděpodobností 95 %.

Pro velké vzorky, řekněme, můžeme aproximovat s hodnotou 1,96 (to znamená, že testovací statistika bude mít tendenci být normálně rozdělena)

Posouzení kvality lineární regrese: koeficient determinace R 2

Vzhledem k lineárnímu vztahu a očekáváme, že se změní a nazývejte to variace, která je způsobena nebo vysvětlena regresí. Zbytková odchylka by měla být co nejmenší.

Pokud je to pravda, pak bude většina variace vysvětlena regresí a body budou ležet blízko regresní přímky, tzn. čára dobře odpovídá datům.

Podíl celkového rozptylu, který je vysvětlen regresí, se nazývá koeficient determinace, obvykle vyjádřené v procentech a označené R 2(v párové lineární regresi je to množství r 2, druhá mocnina korelačního koeficientu), umožňuje subjektivně posoudit kvalitu regresní rovnice.

Rozdíl představuje procento rozptylu, které nelze vysvětlit regresí.

Neexistuje žádný formální test k vyhodnocení, musíme se spoléhat na subjektivní úsudek, abychom určili správnost shody regresní přímky.

Použití regresní přímky na předpověď

Regresní přímku můžete použít k předpovědi hodnoty z hodnoty na extrémním konci pozorovaného rozsahu (nikdy extrapolovat mimo tyto limity).

Předpovídáme průměr pozorovatelných veličin, které mají určitou hodnotu, tím, že tuto hodnotu zapojíme do rovnice regresní přímky.

Pokud tedy předpovídáme jako Použijte tuto předpokládanou hodnotu a její standardní chybu k odhadu intervalu spolehlivosti pro skutečný průměr populace.

Opakování tohoto postupu pro různé hodnoty vám umožní vytvořit limity spolehlivosti pro tento řádek. Toto je pásmo nebo oblast, která obsahuje skutečnou čáru, například na úrovni spolehlivosti 95 %.

Jednoduché regresní plány

Jednoduché regresní návrhy obsahují jeden spojitý prediktor. Pokud existují 3 pozorování s hodnotami prediktoru P, například 7, 4 a 9, a návrh zahrnuje efekt prvního řádu P, pak bude matice návrhu X

a regresní rovnice používající P pro X1 je

Y = b0 + b1 P

Pokud jednoduchý regresní návrh obsahuje efekt vyššího řádu na P, jako je kvadratický efekt, pak hodnoty ve sloupci X1 v matici návrhu budou zvýšeny na druhou mocninu:

a rovnice bude mít tvar

Y = b0 + b1 P2

Metody kódování s omezením Sigma a přeparametrizace se nevztahují na jednoduché regresní návrhy a jiné návrhy obsahující pouze spojité prediktory (protože prostě žádné kategorické prediktory neexistují). Bez ohledu na zvolenou metodu kódování se hodnoty spojitých proměnných odpovídajícím způsobem zvýší a použijí se jako hodnoty pro proměnné X. V tomto případě se žádné překódování neprovádí. Kromě toho můžete při popisu regresních plánů vynechat zohlednění návrhové matice X a pracovat pouze s regresní rovnicí.

Příklad: Jednoduchá regresní analýza

Tento příklad používá data uvedená v tabulce:

Rýže. 3. Tabulka výchozích dat.

Údaje sestavené ze srovnání sčítání v roce 1960 a 1970 v náhodně vybraných 30 okresech. Názvy okresů jsou uvedeny jako názvy pozorování. Informace o každé proměnné jsou uvedeny níže:

Rýže. 4. Tabulka specifikací proměnných.

Výzkumný problém

V tomto příkladu bude analyzována korelace mezi mírou chudoby a mírou, která předpovídá procento rodin, které jsou pod hranicí chudoby. Proto budeme proměnnou 3 (Pt_Poor) považovat za závislou proměnnou.

Můžeme předložit hypotézu: změny ve velikosti populace a procento rodin, které jsou pod hranicí chudoby, spolu souvisí. Zdá se rozumné očekávat, že chudoba vede k migraci ven, takže by existovala negativní korelace mezi procentem lidí pod hranicí chudoby a změnou populace. Proto budeme s proměnnou 1 (Pop_Chng) zacházet jako s proměnnou prediktoru.

Zobrazit výsledky

Regresní koeficienty

Rýže. 5. Regresní koeficienty Pt_Poor na Pop_Chng.

Na průsečíku řádku Pop_Chng a sloupce Param. nestandardizovaný koeficient pro regresi Pt_Poor na Pop_Chng je -0,40374. To znamená, že na každý pokles počtu obyvatel připadá nárůst míry chudoby o 0,40374. Horní a dolní (výchozí) 95% meze spolehlivosti pro tento nestandardizovaný koeficient nezahrnují nulu, takže regresní koeficient je významný na úrovni p<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Variabilní rozdělení

Korelační koeficienty mohou být výrazně nadhodnoceny nebo podhodnoceny, pokud jsou v datech přítomny velké odlehlé hodnoty. Pojďme studovat rozdělení závislé proměnné Pt_Poor podle okresů. K tomu sestavíme histogram proměnné Pt_Poor.

Rýže. 6. Histogram proměnné Pt_Poor.

Jak vidíte, rozdělení této proměnné se výrazně liší od normálního rozdělení. I když však dokonce dva kraje (dva pravé sloupce) mají vyšší procento rodin, které jsou pod hranicí chudoby, než se očekává při normálním rozdělení, zdá se, že jsou „v rámci rozmezí“.

Rýže. 7. Histogram proměnné Pt_Poor.

Tento úsudek je poněkud subjektivní. Pravidlem je, že odlehlé hodnoty by měly být brány v úvahu, pokud pozorování (nebo pozorování) nespadají do intervalu (průměr ± 3násobek standardní odchylky). V tomto případě stojí za to zopakovat analýzu s odlehlými hodnotami a bez nich, aby se zajistilo, že nebudou mít zásadní vliv na korelaci mezi členy populace.

Bodový diagram

Pokud je jedna z hypotéz a priori o vztahu mezi danými proměnnými, pak je užitečné ji otestovat na grafu odpovídajícího bodového grafu.

Rýže. 8. Bodový diagram.

Bodový graf ukazuje jasnou negativní korelaci (-0,65) mezi těmito dvěma proměnnými. Ukazuje také 95% interval spolehlivosti pro regresní přímku, tj. existuje 95% pravděpodobnost, že regresní přímka leží mezi dvěma tečkovanými křivkami.

Kritéria významnosti

Rýže. 9. Tabulka obsahující kritéria významnosti.

Test regresního koeficientu Pop_Chng potvrzuje , že Pop_Chng silně souvisí s Pt_Poor , p<.001 .

Sečteno a podtrženo

Tento příklad ukázal, jak analyzovat jednoduchý regresní návrh. Prezentovány byly také interpretace nestandardizovaných a standardizovaných regresních koeficientů. Je diskutován význam studia distribuce odezvy závislé proměnné a je demonstrována technika určování směru a síly vztahu mezi prediktorem a závislou proměnnou.

Párová (jednoduchá) lineární regrese je model, kde je průměrná hodnota závislé (vysvětlené) proměnné uvažována jako funkce jedné nezávislé (vysvětlující) proměnné X, tj. toto je model jako:

Taky y se nazývá efektivní znamení a X faktor-znak.

Znak "^" znamená, že mezi proměnnými X A y neexistuje žádná striktní funkční závislost. Téměř v každém jednotlivém případě hodnota y se skládá ze dvou termínů:

(4.5)

Kde y– skutečná hodnota výsledného atributu;

– teoretická hodnota výsledné charakteristiky zjištěná na základě regresní rovnice;

E– náhodná veličina charakterizující odchylku skutečné hodnoty výsledné charakteristiky od teoretické hodnoty zjištěné pomocí regresní rovnice.

Náhodná hodnota E zahrnuje vliv faktorů nezohledněných v modelu, náhodné chyby a vlastnosti měření. Jeho přítomnost v modelu je generována třemi zdroji: specifikací modelu, selektivní povahou zdrojových dat a zvláštnostmi měření proměnných.

Rozlišovat lineární A nelineární regrese.

Lineární regrese: y=A+b× X+E.

Nelineární regrese jsou rozděleny do dvou tříd:

ü regrese, které jsou nelineární s ohledem na vysvětlující proměnné zahrnuté do analýzy, ale lineární s ohledem na odhadované parametry;

ü regrese, které jsou v odhadovaných parametrech nelineární.

Například:

ü regrese, nelineární ve vysvětlujících proměnných:

polynomy různého stupně y=A+b× X+b× X 2 + ... + b × x n + E ;

rovnostranná hyperbola y=A+b/X+E ;

ü regrese, nelineární v odhadovaných parametrech:

Napájení y=A× x b× E;

Orientační y = A × b x × E ;

Exponenciální y = e a + bx +E .

Konstrukce regresní rovnice spočívá v odhadu jejích parametrů. K odhadu parametrů regresí lineárních v parametrech použijte metoda nejmenších čtverců (LSM). Metoda nejmenších čtverců nám umožňuje získat takové odhady parametrů, pro které je součet čtverců odchylek skutečných hodnot výsledné charakteristiky y z teoretického je minimální, tzn.

(4.6)

Pro lineární a nelineární rovnice redukovatelné na lineární je následující soustava řešena s ohledem na A A b :

(4.7)

Můžete použít hotové vzorce, které vyplývají přímo z řešení tohoto systému:

(4.8)

kde je kovariance funkcí X A y,

– rozptyl vlastností X A

(Kovariance je číselná charakteristika společného rozdělení dvou náhodných proměnných, která se rovná matematickému očekávání součinu odchylek těchto náhodných veličin od jejich matematických očekávání. Disperze je charakteristika náhodné veličiny, definovaná jako matematické očekávání druhá mocnina odchylky náhodné veličiny od jejího matematického očekávání. Matematické očekávání je součtem součinů hodnot hodnot náhodné veličiny odpovídajícími pravděpodobnostmi.)

Posuzuje se těsnost souvislosti mezi zkoumanými jevy lineární párový korelační koeficient r xy pro lineární regresi (-1£ r xy 1 £):

(4.9)

A korelační index r xy – pro nelineární regresi (0£ r xy 1 £):

(4.10)

Kde celkový rozptyl výsledného znaku na;

zbytkový rozptyl stanovený z regresní rovnice

Kvalitu sestrojeného modelu posoudí determinační koeficient (index) r 2 (pro lineární regresi) popř r 2 (pro nelineární regresi), stejně jako průměrná chyba aproximace.

Průměrná chyba aproximace – průměrná odchylka vypočtených hodnot od skutečných:

(4.11)

Přípustný limit hodnot není větší než 10%.

Průměrný koeficient pružnosti ukazuje, o jaké procento se v průměru změní výsledek v souhrnu na z jeho průměrné hodnoty při změně faktoru X o 1 % své průměrné hodnoty:

(4.12)

Poté, co byla nalezena lineární regresní rovnice, posouzení významnosti jak rovnice jako celku, tak i jejích jednotlivých parametrů.

Ověřit významnost regresní rovnice znamená určit, zda matematický model vyjadřující vztah mezi proměnnými odpovídá experimentálním datům a zda vysvětlující proměnné zahrnuté v rovnici (jedna nebo více) jsou dostatečné k popisu závislé proměnné.

Významnost regresní rovnice jako celku se posuzuje na základě Fisherův F test, kterému předchází analýza rozptylu. Podle základní myšlenky rozptylové analýzy je to celkový součet kvadrátů odchylek proměnné y z průměru y se dělí na dvě části -" vysvětlil" A " nevysvětlitelné»:

kde ∑( y - ) 2 – celkový součet čtverců odchylek;

( - ) 2 – součet čtverců odchylek vysvětlených regresí (nebo faktorový součet čtverců odchylek);

∑(y– ) 2 – zbytkový součet kvadrátů odchylek, charakterizující vliv faktorů nezohledněných v modelu.

Analýza rozptylového schématu má podobu uvedenou v tabulce. 4.1 ( n– počet pozorování, m– počet parametrů pro proměnnou X).

Tabulka 4.1

Určení disperze o jeden stupeň volnosti vede disperzi ke srovnatelné formě (připomeňme, že stupně volnosti jsou čísla ukazující počet prvků variace, které mohou nabývat libovolné hodnoty, které nemění dané charakteristiky). Porovnáním faktoru a zbytkového rozptylu na jeden stupeň volnosti získáme hodnotu F- Fisherovo kritérium:

Skutečná hodnota F-Fisherovo kritérium je porovnáno s tabulkovou hodnotou F stůl ( A; k 1 ; k 2) na hladině významnosti A a stupně volnosti k 1 = m A k 2 = n - m- 1. Navíc, pokud je skutečná hodnota F-kritérium je větší než tabulkové, pak je uznána statistická významnost rovnice jako celku.

Pro párovou lineární regresi m= 1, takže

(4.15)

Velikost F-kritérium souvisí s koeficientem determinace r xy 2 a lze jej vypočítat pomocí následujícího vzorce:

(4.16)

Pro sazbu statistická významnost regresních a korelačních parametrů jsou vypočteny Studentův t-test A intervaly spolehlivosti každý z ukazatelů Posouzení významnosti pomocí regresních a korelačních koeficientů t-Studentův t-test se provádí porovnáním jejich hodnot s velikostí náhodné chyby:

(4.17)

Standardní chyby parametry lineární regrese a korelační koeficient jsou určeny vzorcem:

4.18

Porovnání skutečných a kritických (tabulkových) hodnot t- statistika - t stůl A t skutečnost– vyvodíme závěr o významnosti regresních a korelačních parametrů. Li t stůl < t skutečnost pak parametry A, b A r xy ne náhodou se liší od nuly a vznikly pod vlivem systematicky působícího činitele X. Li t stůl > t skutečnost, pak je rozpoznána náhodná povaha formace A, b nebo r xy .

Pro výpočet intervalu spolehlivosti definujeme mezní chyba∆pro každý indikátor:

Vzorce pro výpočet intervaly spolehlivosti mít následující tvar:

Pokud nula spadá do intervalu spolehlivosti, tzn. Pokud je spodní mez záporná a horní mez kladná, pak se odhadovaný parametr považuje za nulový, protože nemůže současně nabývat kladných i záporných hodnot.

Spojení mezi F- Fisherovo kritérium a t-Studentova t-statistika je vyjádřena rovností

V předpovědních výpočtech pomocí regresní rovnice je určena předpokládaná individuální hodnota y 0 jako bodová předpověď na X=X 0, tedy dosazením do lineární rovnice = A+b× X odpovídající hodnotu X. Bodová předpověď je však zjevně nereálná, proto je doplněna o výpočet směrodatné chyby

(4.19)

Kde a stavebnictví interval spolehlivosti předpokládaná hodnota:

Použití nástroje pro analýzu dat Regrese Můžete získat výsledky regresní statistiky, analýzy rozptylu, intervalů spolehlivosti, reziduí a grafů proložení regresní přímky.

Pokud v servisním menu ještě není žádný příkaz Analýza dat, pak musíte provést následující. V hlavní nabídce postupně vyberte Nástroje→ Doplňky a zaškrtněte políčko v řádku Balíček analýzy(obr. 4.1).

1. Pokud již byla zadána počáteční data, vyberte Služba→Analýza dat→Regrese.

2. Vyplňte dialogové okno pro zadání dat a výstupních parametrů (obr. 4.2).

Interval vstupu Y– rozsah obsahující data výsledné charakteristiky;

Interval vstupu X– rozsah obsahující údaje faktorové charakteristiky;

Tagy– „příznak“, který označuje, zda první řádek obsahuje názvy sloupců;

Rýže. 4.1. Čára Balíček analýzy

Rýže. 4.2. Dialogové okno pro vstupní a výstupní parametry dat

Konstanta - nula– „vlajka“ označující přítomnost nebo nepřítomnost volného členu v rovnici;

Výstupní interval– stačí označit levou horní buňku budoucího rozsahu;

Nový pracovní list– můžete zadat libovolný název nového listu (nebo jej nezadat, pak se výsledky zobrazí na nově vytvořeném listu).

Dostáváme výsledky takto:

Odkud to zapisujeme, zaokrouhlujeme na 4 desetinná místa a přejdeme k našemu zápisu:

Regresní rovnice:

76,9765+0,9204X.

Korelační koeficient:

r xy=0,7210.

Koeficient determinace:

r xy 2 =0,5199.

Skutečná hodnota F- Fisherovo kritérium:

F=10,8280

Zbytkový rozptyl na stupeň volnosti:

S ost 2 = 157,4922.

Druhá odmocnina zbytkového rozptylu (standardní chyba):

S zbytek = 12,5496.

Standardní chyby pro regresní parametry:

m a=24, 2116 , m b=0, 2797.

Skutečné hodnoty t- studentský test:

t a=3,1793, t b=3,2906.

Intervaly spolehlivosti:

23,0298 GBP A* 130,9232 GBP,

0,2972 GBP b* 0,5437 GBP.

Jak vidíme, byly nalezeny všechny parametry a charakteristiky regresní rovnice diskutované výše, s výjimkou průměrné chyby aproximace (hodnota t-Studentský test na korelační koeficient se shoduje s t b). Výsledky „ručního výpočtu“ se mírně liší od výpočtů strojových (rozdíly jsou způsobeny chybami zaokrouhlování).

4.3. Finanční modelování v Vynikat.

Když začínáte vytvářet finanční model podniku, je lepší se řídit zásadou „od jednoduchého ke složitému“, jinak ve snaze vzít v úvahu všechny nuance existuje riziko zmatení ve velkém. počet vzorců a odkazů. Proto je zcela oprávněné nejprve vytvořit nejjednodušší model (s minimálním počtem prvků), stanovit obecné vazby mezi externími parametry (poptávka po produktech, náklady na zdroje) a interními ukazateli podniku (výnosy, náklady, peněžní toky, atd.). V první iteraci se nemusíte starat o konkrétní přesnost zadaných parametrů. V této fázi je důležitější stanovit správné vztahy mezi proměnnými, aby se finanční model podniku po změně zdrojových dat automaticky přepočítal a umožnil sestavení různých scénářů. Poté jej můžete začít vyvíjet, upřesňovat ukazatele, zavádět další úrovně analytiky atd.

1) Příjem. Sestavení finančního modelu v Excelu začíná nastavením externích parametrů. Výchozím bodem pro další výpočty bude plán prodeje. K tomu se v Excelu na jeden z listů knihy umístí tabulka s plánem prodeje v peněžním vyjádření (tabulka 4.1). V této fázi lze tržby uvést „z ruky“ nebo pomocí údajů z minulého roku. Na přesnosti zatím moc nezáleží. Později, až bude model podrobně zpracován, bude muset být dokončen plán prodeje.

2) Výdaje. Na základě objemu prodeje je stanovena výše variabilních nákladů. V nejobecnější podobě může výpočet vypadat takto:

Variabilní náklady = Podíl výnosů x Objem prodeje

Udělejme malý předpoklad a předpokládejme, že v příkladu jsou jedinou proměnnou mzdové náklady – platy zaměstnanců zcela závisí na objemu poskytovaných služeb a jde na ně přibližně 30 procent tržeb. Mimochodem, je výhodnější umístit plán nákladů na samostatný list Excelu (tabulka 4.2). V něm se mzda vypočítává měsíčně jako součin koeficientu 0,3 (30 % / 100 %) a plánu prodeje na určitý měsíc. Náklady na pronájem a správu jsou zavedeny v první fázi tvorby finančního modelu podniku nikoli jako vypočítané hodnoty, ale jako pevné hodnoty. V budoucnu je lze při detailování modelu nahradit vzorci a propojit je s jinými indikátory.

Tabulka 4.1

Plán prodeje ve finančním modelu podniku, tisíc rublů.

Tabulka 4.2

Plán nákladů ve finančním modelu podniku, tisíce rublů.

Plány nejvyšší úrovně (rozvaha, zisky a ztráty, peněžní tok) byste neměli přetěžovat ukazateli. Je lepší usilovat o to, aby se každý z nich vešel na jeden potištěný list. Často je těžké odolat pokušení dešifrovat každý údaj (například z hlediska příjmů a výdajů popsat tržby podle typu produktu, skupin zákazníků, prodejních kanálů atd.). Pokud do plánu příjmů a výdajů zahrnete sto druhů hotových výrobků a nákladových položek, výrazně to zkomplikuje jeho vnímání. Přesto je z hlediska informačního obsahu účelné takové plány doplňovat o různé relativní ukazatele (např. do rozvahy zadávat ukazatele struktury aktiv a pasiv (podíl položek v měně rozvahy) a ziskovost do plánu příjmů a výdajů).

V plánu příjmů a výdajů (tabulka 4.3) se řádky „Provozní náklady“ a „Provozní výnosy“ vyplňují pomocí odkazů na odpovídající buňky funkčních plánů. Výnosy jsou dešifrovány podle druhu služby, nákladů - podle položek. V tomto případě je takový přepis přijatelný, protože nekomplikuje vnímání zprávy a nekomplikuje její analýzu. Zpráva navíc obsahuje dva analytické ukazatele – ziskovost (jako poměr zisku k výnosům) a kumulativní zisk. Pokud potřebujete provést podrobnější analýzu, zejména dynamiku podílu odměn práce na nákladech na služby, je lepší provést všechny potřebné výpočty na samostatném listu.

Tabulka 4.3

Plán příjmů a výdajů ve finančním modelu podniku, tisíc rublů.

Plán peněžních toků (tabulka 4.4) v našem příkladu je vytvořen s následujícími předpoklady.

Tabulka 4.4

Plán peněžních toků, tisíc rublů.

Za prvé: z plánu jsou vyloučeny části „Finanční aktivity“ a „Investiční aktivity“. Předpokládá se, že podnik provádí pouze provozní činnosti, aniž by přitahoval vypůjčené prostředky nebo investoval kapitál. Ještě jeden předpoklad. Společnost poskytuje služby fyzickým osobám za hotovost, což znamená, že se doba poskytnutí služby a její úhrady shoduje - společnost nemá ve výsledku žádné pohledávky. Situace s platbami za provozní činnost není tak jednoznačná. Mzdy a nájemné jsou vypláceny v měsíci následujícím po měsíci časového rozlišení a náklady na správu jsou hrazeny v měsíci, kdy vznikly. Poslední věcí, kterou zbývá udělat, je vytvořit předběžný zůstatek (tabulka 4.5). Údaje o obratu za období jsou převzaty z PDR a PDS, počáteční stavy jsou převzaty z rozvahy za minulé období (zde je akceptovatelné ruční zadávání informací).

Tabulka 4.5

Předpokládaný zůstatek, tisíce rublů.

Takto konstruovaný finanční model označuje hlavní skupiny ukazatelů charakterizujících činnost podniku (příjmy, výdaje, hotovost atd.) a spojuje je do tří konsolidovaných plánů. I tento zdánlivě nejjednodušší model lze použít pro analýzu scénářů. Zejména pokud z plánu prodeje vyloučíte službu č. 1 (není třeba mazat odpovídající řádek, stačí na něj dát nuly), pak vidíte, jak moc se zhorší ukazatele ziskovosti a likvidity.

Chcete-li z modelu udělat plnohodnotný nástroj pro analýzu scénářů, budete jej muset „nasytit“ analytikou, která upřesňuje počáteční informace na indikátory, které lze v praxi spravovat. Například v případě podniku poskytujícího služby je zřejmá potřeba podrobně popsat plán prodeje dříve zadaný do modelu v peněžním vyjádření. Výnosy za každý typ služby lze vypočítat jako součin jednotkové ceny služby a počtu specifikovaných služeb. V praxi se samozřejmě plán prodeje tvoří na základě tržních podmínek, očekávané poptávky, očekávané prodejní ceny, uzavřených dohod s klíčovými zákazníky, plánovaných marketingových aktivit, cenové a úvěrové politiky atd.

Ostatní zdrojové údaje jsou podobně podrobné. Například nájemné by se dalo rozdělit na plochu pronajatých prostor a náklady na jeden metr čtvereční, platy by mohly být rozděleny podle zaměstnanců a náklady na správu by mohly být rozděleny podle typu. V důsledku toho se funkčnost finančního modelu podniku rozvine na takovou úroveň, že je vidět, jak změna jakéhokoli, i toho nejnevýznamnějšího parametru ovlivňuje konečný výsledek.

Vytvoření podrobného finančního modelu podniku je zajímavý, ale obtížný úkol. Bude nutné pečlivě prostudovat a adekvátně matematicky popsat existující vztahy jak vnitřních výrobních procesů, tak vnějších faktorů. Takový model nemůže vytvořit samotné finanční oddělení, bude vyžadována účast všech oddělení podniku - od obchodního oddělení až po účetní oddělení.

Využití finančního modelu při plánování činností pomáhá vidět, jak se určité plány rozvoje odrážejí ve struktuře aktiv, pasiv, příjmů a výdajů podniku, a také určit, na kterých faktorech nejvíce závisí budoucí zisky, likvidita a finanční stabilita. . Model slouží spíše jako nástroj pro sledování aktuální situace v podniku a vytváření adekvátní finanční politiky.

Finanční model podniku by měl být použit v procesu rozpočtování ihned po schválení plánu prodeje. Pokud je plán prodeje „proveden“ modelem, lze výsledný finanční výsledek ukázat akcionářům za účelem stanovení cílových hodnot pro náklady, zisky a dividendy. Pokud plánovaný výnos nezajistí z pohledu akcionářů potřebný zisk, jsou ovlivňující ukazatele upraveny přímo v modelu. Finální verze modelových výpočtů určuje cílové hodnoty rozpočtových limitů pro všechna střediska finanční odpovědnosti. V průběhu roku lze upravovat finanční model podniku, zadávat skutečné údaje za uplynulé měsíce místo plánovaných a kontrolovat tak finanční výsledky, sledovat negativní trendy a jasně chápat, kam podnik povedou.

Finanční model v Excelu umožňuje:

Naplánovat aktivity projektu, ujasnit si vztah mezi jeho efektivitou a plánovanými náklady na jeho realizaci;

Analyzujte finanční ukazatele projektu, jako je NPV, IRR, PBP, WACC atd.;

Zadejte a analyzujte jakékoli změny projektu.

Mezi výhody použití Excel modelování patří, že výsledný finanční model je flexibilní a srozumitelný. Vzorec pro výpočet konkrétního ukazatele si můžete kdykoli prohlédnout a změnit počáteční data projektu podle svého uvážení. Další výhodou sestavení finančního modelu v Excelu je, že všechny výpočty jsou konzistentní a rozumné.

Na stavbu finanční model v Excelu Jsou vyžadovány následující informace o projektu:

Rozvaha společnosti k poslednímu datu účetní závěrky;

Seznam produktů, ceny, objem prodeje, platební metody;

Seznam nákladů společnosti, jako jsou přímé a obecné náklady, platy zaměstnanců;

Podmínky financování;

Investiční plán projektu;

Podmínky leasingu (pokud existují).

Výjezdy finanční model v Excelu jsou:

Výkaz zisků a ztrát;

Přehled o peněžních tocích;

Finanční ukazatele projektu.

Pokud je regresní funkce lineární, pak mluvíme o lineární regrese. Lineární regrese je v ekonometrii velmi široce používána díky jasné ekonomické interpretaci jejích parametrů. Kromě toho může sestrojená lineární rovnice sloužit jako výchozí bod pro ekonometrickou analýzu.

Jednoduchá lineární regrese představuje lineární funkci mezi podmíněným očekáváním závislé proměnné a jedné závislé proměnné X (x i– hodnoty závislé proměnné v i-té pozorování):

. (5.5)

Odrážet skutečnost, že každý jednotlivec hodnotu y i odchyluje od odpovídajícího podmíněného matematického očekávání, je nutné do vztahu (5.5) zavést náhodný člen e i:

. (5.6)

Tento poměr se nazývá teoretický lineární regresní model; b 0 a b 1 – teoretické regresní koeficienty. Tedy individuální hodnoty y i zastoupené ve formě dvou složek – systematické () a náhodné (např i). Obecně budeme teoretický lineární regresní model reprezentovat ve formě

. (5.7)

Hlavním úkolem lineární regresní analýzy je využití dostupných statistických dat pro proměnné X A Y získat nejlepší odhady neznámých parametrů b 0 a b 1 . Na základě omezené velikosti vzorku je možné sestrojit empirická lineární regresní rovnice:

kde je odhad podmíněného matematického očekávání , b 0 a b 1 – odhady neznámých parametrů b 0 a b 1, tzv empirické regresní koeficienty. Proto v konkrétním případě

, (5.9)

kde je odchylka e i– odhad teoretické náhodné odchylky e i.

Cílem lineární regresní analýzy je pro konkrétní vzorek ( x i,y i) najít odhady b 0 a b 1 neznámé parametry b 0 a b 1 tak, aby sestrojená regresní přímka byla v určitém smyslu nejlepší mezi všemi ostatními přímkami. Jinými slovy, sestrojená přímka by měly být „nejblíže“ pozorovacím bodům v jejich celku. Určité složení odchylek může sloužit jako měřítko kvality zjištěných odhadů. e i. Například kurzy b 0 a b Na základě podmínky minimalizace lze odhadnout 1 empirickou regresní rovnici ztrátová funkce: . Například ztrátové funkce lze zvolit takto:



1) ; 2) ; 3) .

Nejběžnější a teoreticky odůvodněná metoda je metoda hledání koeficientů, při které je první součet minimalizován. Dostalo to jméno metoda nejmenších čtverců (LSM). Tato metoda odhadu je z výpočetního hlediska nejjednodušší. Navíc odhady regresních koeficientů zjištěné LSM za určitých předpokladů mají řadu optimálních vlastností. Dobré statistické vlastnosti metody a jednoduchost matematických závěrů umožňují vybudovat rozvinutou teorii, která umožňuje důkladné testování různých statistických hypotéz. Nevýhodou metody je citlivost na „odlehlé hodnoty“.

Je volána metoda pro stanovení odhadů koeficientů z podmínky minimalizace druhého součtu metoda nejmenšího modulu. Tato metoda má určité výhody, například oproti metodě nejmenších čtverců je necitlivá na odlehlé hodnoty (je robustní). Má však značné nevýhody. Je to dáno především složitostí výpočetních postupů. Za druhé s nejednoznačností metody, tzn. různé hodnoty regresních koeficientů mohou odpovídat stejným součtům odchylkových modulů.

Metoda pro minimalizaci maximálního modulu odchylky sledované hodnoty efektivního ukazatele y i z hodnoty modelu je volána metoda minimax a výsledná regrese minimax.

Z dalších metod pro odhad regresních koeficientů uvádíme metoda maximální věrohodnosti (MLM).

25.07.16 Irina Anichina

51850 0

V tomto článku budeme hovořit o tom, jak pochopit, zda jsme postavili vysoce kvalitní model. Přeci jen je to kvalitní model, který nám dá kvalitní předpovědi.

Prognoz Platform má rozsáhlý seznam modelů pro konstrukci a analýzu. Každý model má svá specifika a používá se za jiných podmínek.

Objekt „Model“ vám umožňuje sestavit následující regresní modely:

  • Lineární regrese (odhad nejmenších čtverců);
  • Lineární regrese (odhad instrumentálních proměnných);
  • Binární výběrový model (odhad maximální věrohodnosti);
  • Nelineární regrese (nelineární odhad nejmenších čtverců).

Začněme lineárním regresním modelem. Mnohé z toho, co bylo řečeno, bude platit i pro jiné druhy.

Lineární regresní model (OLS odhad)

Kde y- vysvětlená série, X 1 , …, x k- vysvětlující řada, E– vektor chyb modelu, b 0 , b 1 , …, b k– modelové koeficienty.

Kde tedy hledat?

Modelové koeficienty

Pro každý koeficient na panelu „Identified Equation“ se vypočítá řada statistik: standardní chybat-statistika, pravděpodobnost významnosti koeficientu. Ten je nejuniverzálnější a ukazuje, s jakou pravděpodobností nebude odstranění faktoru odpovídajícího danému koeficientu z modelu významné.

Otevřeme panel a podíváme se na poslední sloupec, protože právě ten nám hned řekne o významnosti koeficientů.

V modelu by neměly být žádné faktory s vysokou pravděpodobností nevýznamnosti.

Jak je vidět, při vyloučení posledního faktoru zůstaly modelové koeficienty prakticky nezměněny.

Možné problémy: Co dělat, když podle vašeho teoretického modelu musí existovat faktor s vysokou pravděpodobností nevýznamnosti? Existují další způsoby, jak určit význam koeficientů. Podívejte se například na matici korelace faktorů.

Korelační matice

Panel Factor Correlation obsahuje korelační matice mezi všemi proměnnými modelu a také vytváří oblak pozorování pro vybranou dvojici hodnot.

Korelační koeficient ukazuje sílu lineárního vztahu mezi dvěma proměnnými. Pohybuje se od -1 do 1. Blízkost k -1 znamená negativní lineární vztah, blízkost 1 znamená pozitivní vztah.

Pozorovací oblak umožňuje vizuálně určit, zda je závislost jedné proměnné na druhé lineární.

Pokud existují faktory, které spolu silně korelují, vylučte jeden z nich. Pokud si přejete, můžete namísto běžného lineárního regresního modelu sestavit model s instrumentálními proměnnými, včetně faktorů vyloučených z důvodu korelace v seznamu instrumentálních proměnných.

Korelační matice není pro nelineární regresní model smysluplná, protože ukazuje pouze sílu lineární závislosti.

Kritéria kvality

Kromě kontroly každého koeficientu modelu je důležité vědět, jak je celkově dobrý. Chcete-li to provést, vypočítejte statistiky umístěné na panelu „Statistické charakteristiky“.

Koeficient determinace (R 2 ) – nejběžnější statistika pro hodnocení kvality modelu. R 2 vypočítá se pomocí následujícího vzorce:

Kde n– počet pozorování; y i— hodnoty vysvětlené proměnné; — průměrnou hodnotu vysvětlované proměnné; i— hodnoty modelu sestavené z odhadovaných parametrů.

R 2 nabývá hodnoty od 0 do 1 a ukazuje podíl vysvětleného rozptylu vysvětlené řady. Blíže R 2 na 1, čím lepší je model, tím menší je podíl nevysvětlených.

Možné problémy: Problémy s používáním R 2 spočívá v tom, že jeho hodnota neklesá, když se do rovnice přidají faktory, bez ohledu na to, jak špatné jsou. Zaručeně bude roven 1, pokud do modelu přidáme tolik faktorů, kolik máme pozorování. Proto porovnejte modely s různým počtem faktorů R 2 , nedává to smysl.

Pro adekvátnější posouzení modelu používáme upravený koeficient determinace (Adj R 2 ) . Jak název napovídá, tento indikátor je upravenou verzí R 2 , uvalením „pokuty“ za každý přidaný faktor:

Kde k– počet faktorů zahrnutých v modelu.

Součinitel Adj R 2 také nabývá hodnot od 0 do 1, ale nikdy nebude větší než hodnota R 2 .

Analog t-statistika koeficientů je Fisherovy statistiky (F -statistika). Pokud však t-statistika testuje hypotézu o nevýznamnosti jednoho koeficientu F-statistika testuje hypotézu, že všechny faktory (kromě konstanty) jsou nevýznamné. Význam F-statistika se také porovnává s kritickou a za ni můžeme získat i pravděpodobnost nevýznamnosti. Stojí za to pochopit, že tento test testuje hypotézu, že všechny faktory zároveň jsou bezvýznamné. Proto za přítomnosti nevýznamných faktorů může být model jako celek významný.

Možné problémy: Většina statistik je konstruována pro případ, kdy model obsahuje konstantu. V Prognoz Platform však máme možnost odstranit konstantu ze seznamu odhadovaných koeficientů. Stojí za to pochopit, že takové manipulace vedou k tomu, že některé vlastnosti mohou nabývat nepřijatelných hodnot. Tak, R 2 A Adj R 2 v nepřítomnosti konstant mohou nabývat záporných hodnot. V tomto případě je již nelze interpretovat jako zlomek nabývající hodnoty od 0 do 1.

Pro modely bez konstanty v platformě Prognoz se počítají necentrované koeficienty determinace(R 2 A Adj R 2 ). Upravený vzorec přináší jejich hodnoty do rozsahu od 0 do 1, a to i v modelu bez konstanty.

Podívejme se na hodnoty popsaných kritérií pro výše uvedený model:

Jak vidíme, koeficient determinace je poměrně velký, ale stále existuje značné množství nevysvětlitelných rozptylů. Fisherovy statistiky ukazují, že soubor faktorů, který jsme zvolili, je významný.

Srovnávací kritéria

Kromě kritérií, která nám umožňují hovořit o kvalitě samotného modelu, existuje řada charakteristik, které nám umožňují porovnávat modely mezi sebou (za předpokladu, že vysvětlujeme stejnou sérii za stejné období).

Většina regresních modelů se redukuje na problém minimalizace součet druhých mocnin zbytků (součet z na druhou zbytky , SSR ) . Porovnáním modelů podle tohoto ukazatele je tedy možné určit, který z modelů lépe vysvětlil zkoumanou řadu. Tento model bude odpovídat nejmenší hodnotě součtu kvadrátů reziduí.

Možné problémy: Stojí za zmínku, že s nárůstem počtu faktorů je tento ukazatel stejný jako R 2 , bude mít sklon k hraniční hodnotě (SSR má samozřejmě hraniční hodnotu 0).

Některé modely se scvrkají na maximalizaci logaritmus funkce maximální věrohodnosti (LogL ) . U lineárního regresního modelu vedou tyto problémy ke stejnému řešení. Na základě LogL jsou konstruována informační kritéria, která se často používají k řešení problému výběru jak regresních, tak vyhlazovacích modelů:

  • Informační kritérium Akaike (Akaike Informace kritérium, AIC)
  • Schwarzovo kritérium (Schwarz Kritérium, S.C.)
  • Hannan-Quinn test (Hannane- Quinn Kritérium, ústředí)

Všechna kritéria zohledňují počet pozorování a počet parametrů modelu a liší se od sebe ve formě „penalizační funkce“ pro počet parametrů. Pro informační kritéria platí pravidlo: nejlepší model má nejnižší hodnotu kritéria.

Porovnejme náš model s jeho první verzí (s koeficientem „navíc“):

Jak vidíte, tento model sice poskytl menší součet kvadrátů reziduí, ale z hlediska informačních kritérií a upraveného koeficientu determinace dopadl hůře.

Analýza reziduí

Model je považován za kvalitní, pokud rezidua modelu spolu nekorelují. V opačném případě existuje konstantní jednosměrný dopad na vysvětlenou proměnnou faktorů, které nejsou v modelu zohledněny. To ovlivňuje kvalitu odhadů modelu, takže jsou neúčinné.

Statistika se používá ke kontrole reziduí na autokorelaci prvního řádu (závislost aktuální hodnoty na předchozích) Durbin-Watson (DW ) . Jeho hodnota se pohybuje od 0 do 4. Při absenci autokorelace DW blízko 2. Blízkost 0 znamená pozitivní autokorelaci, blízkost 4 negativní autokorelaci.

Jak se ukázalo, náš model obsahuje autokorelaci reziduí. Autokorelace se můžete zbavit aplikací transformace „Difference“ na vysvětlenou proměnnou nebo použitím jiného typu modelu - modelu ARIMA nebo modelu ARMAX.

Možné problémy: Durbin-Watsonovy statistiky nelze použít na modely bez konstanty, stejně jako na modely, které jako faktory používají zpožděné hodnoty vysvětlené proměnné. V těchto případech mohou statistiky ukazovat absenci autokorelace, pokud existuje.

Model lineární regrese (metoda instrumentálních proměnných)

Lineární regresní model s instrumentálními proměnnými je:

Kde y- vysvětlená série, X 1 , …, x k- vysvětlující řada, X1, …,X̃ k– vysvětlující řady modelované pomocí instrumentálních proměnných, z 1 , …, z l– instrumentální proměnné, E, j– vektory chyb modelu, b 0 , b 1 , …, b k– modelové koeficienty, C 0 j, C 1 j, …, c lj – koeficienty modelů pro vysvětlující řady.

Schéma, podle kterého se má kontrolovat kvalita modelu, je podobné, pouze je přidáno ke kritériím kvality J -statistika- analogový F-statistika, která bere v úvahu instrumentální proměnné.

Binární výběrový model

Vysvětlená proměnná v modelu binární volby je hodnota, která nabývá pouze dvou hodnot – 0 nebo 1.

Kde y- vysvětlená série, X 1 , …, x k- vysvětlující řada, E– vektor chyb modelu, b 0 , b 1 , …, b k– modelové koeficienty, F– neklesající funkce, která vrací hodnoty od 0 do 1.

Koeficienty modelu se počítají pomocí metody, která maximalizuje hodnotu funkce maximální věrohodnosti. Pro tento model budou relevantní následující kritéria kvality:

  • McFaddenův koeficient determinace (McFadden R 2 ) - analog obvyklého R 2 ;
  • LR-statistika a jeho pravděpodobnost je obdobná F-statistika;
  • Srovnávací kritéria: LogL , AIC, S.C., ústředí.

Nelineární regrese

Lineárním regresním modelem rozumíme model tvaru:

Kde y- vysvětlená série, X 1 , …, x k- vysvětlující řada, E– vektor chyb modelu, b– vektor modelových koeficientů.

Modelové koeficienty jsou počítány metodou, která minimalizuje hodnotu součtu čtverců reziduí. Pro tento model budou platit stejná kritéria jako pro lineární regresi, s výjimkou kontroly korelační matice. Všimněte si také, že F-statistika bude testovat, zda je model jako celek významný ve srovnání s modelem y = b 0 + E, i když v původním modelu funkce F (X 1 , …, x k, b) neexistuje žádný člen odpovídající konstantě.

Výsledek

Pojďme si shrnout a uvést seznam testovaných charakteristik ve formě tabulky:

Doufám, že tento článek byl pro čtenáře užitečný! Příště si povíme něco o dalších typech modelů a to ARIMA, ARMAX.