Frihetsgrader (engelska: degrees of freedom) är inom statistiken det antal värden i en beräkning som är fria att variera. Begreppet frihetsgrader är komplicerat och för att förstå det fullt ut behövs kunskaper i avancerad matematik. Men en mycket grundläggande förståelse för begreppet och dess tillämpning är bra för alla som är intresserade av statistik.
Den generella formeln för att beräkna antalet frihetsgrader är:
df = antal oberoende observationer - antal estimerade parametrar
Beteckningar
Frihetsgrader skrivs ofta som ν – den grekiska gemena bokstaven ny. Även förteckningen df förekommer, som är en förkortning för det engelska begreppet degrees of freedom. Ofta används ν i matematiska formler, medan df mer frekvent används i tabeller och löpande text.
Fria att variera?
Låt oss ta en titt på definitionen en gång till: frihetsgrader är det antal värden i en statistisk beräkning som är fria att variera. För att förstå vad ”fria att variera” innebär, föreställ dig att du har 50 kulor och 4 skålar framför dig. Du blir instruerad att lägga ner alla kulor i skålarna, fördelat hur du vill. Börja med att lägga kulor i den första skålen, fortsätt med nummer två och tre, för att sedan avsluta med den fjärde. Kanske lägger du 12 kulor i den första skålen och 9 i den andra. I den tredje skålen kanske du lägger ner 23 kulor. Hur många kulor du lägger i varje skål är inte viktigt, utan poängen är att du fritt kan välja hur många kulor du lägger i varje skål. Men när du slutligen ska lägga ner kulorna i den fjärde och sista skålen finns det bara en möjlighet kvar. Om de första skålarna innehåller 12, 9 och 23 kulor som i exemplet ovan, så har du bara 6 kulor kvar. Antalet kulor i de tre första skålarna är fria att variera, medan den sista skålen bara kan få ett specifikt värde. Man kan säga att denna uppställning har tre frihetsgrader.
Ovanstående exempel består av en vardaglig situation för att illustrera konceptet frihetsgrader, men principen är densamma i statistiska beräkningar. Ponera att vi vill undersöka huruvida det finns ett samband mellan kön och rökning, och utför därför en korstabellsanalys. Vi vet att vi har 55 män och 45 kvinnor i datasetet, samt 56 rökare och 44 icke-rökare. I och med att vi vet dessa totalsummor så kan inte observationerna fördela sig hur som helst i korstabellen – det finns ju vissa restriktioner vi måste hålla oss inom. Innan vi vet hur dessa värden fördelar sig över cellerna kan tabellen se ut som följer:
Man | Kvinna | Totalt | |
---|---|---|---|
Rökare | – | – | 56 |
Ej rökare | – | – | 44 |
Totalt | 55 | 45 | 100 |
Så fort ett värde förs in i någon av tabellens fyra celler så kan vi, eftersom vi vet totalsummorna, beräkna värdena i de resterande tre cellerna. Säg att det finns 30 rökande kvinnor:
Man | Kvinna | Totalt | |
---|---|---|---|
Rökare | – | 30 | 56 |
Ej rökare | – | – | 44 |
Totalt | 55 | 45 | 100 |
För att totalsumman för antal rökare ska gå ihop måste antal rökande män vara 56 – 30 = 26. Den cellen är inte fri att variera, utan den kan bara anta ett värde givet våra restriktioner och antalet rökande kvinnor. Samma sak gäller icke rökande män, de måste vara 55 – 26 = 29 för att totalsumman för antal män ska stämma. Till sist kan vi se att den sista cellen måste få värdet 15:
Man | Kvinna | Totalt | |
---|---|---|---|
Rökare | 26 | 30 | 56 |
Ej rökare | 29 | 15 | 44 |
Totalt | 55 | 45 | 100 |
Endast en av cellerna var fri att variera, resten av cellerna kunde bara anta ett värde. Denna korstabell har således 1 frihetsgrad. Med ökat antal celler ökar även antalet frihetsgrader.