Odcinek 4 – Wyjaśnianie zmienności, czyli jak porównać dwie grupy za pomocą współczynnika korelacji

Odcinek 4 – Wyjaśnianie zmienności, czyli jak porównać dwie grupy za pomocą współczynnika

W dotychczasowych wydania działu statystycznego zobaczyliśmy jak ważne jest, by –  czytając doniesienia z badań i różne artykuły empiryczne – zwracać uwagę nie tylko na istotność statystyczną prezentowanych wyników, ale też na ich znaczenie praktyczne, które można ocenić m.in. na podstawie tzw. miary wielkości efektu. Do tej pory pokazałem, jak rozumieć wielkość efektu odnoszącą się do odległości (różnicy) między rozkładami wyników w dwóch porównywanych grupach. Nie da się jednak ukryć, że najpopularniejsze i najczęściej stosowane miary wielkości efektu odwołują się nie do odległości między średnimi, ale do stopnia, w jakim interesujący nas czynnik jest związany z uzyskiwanymi wynikami (np. jak silny jest związek stażu pracy z poziomem wypalenia zawodowego u lekarzy). Klasyczną i najbardziej znaną miarą takiego związku jest współczynnik korelacji r Pearsona, zaś w kontekście analizy regresji najczęściej przytaczany jest współczynnik R2, opisujący, jak duży procent całkowitej wariancji wyników (np. wypalenia zawodowego) wyjaśniają predyktory zawarte w modelu regresji (np. staż pracy, ale też np. poziom neurotyzmu itp.). Warto przyjrzeć się szczegółowo tym klasycznym współczynnikom, gdyż nie wszystkie niuanse związane z ich interpretacją są oczywiste dla psychologów bez zacięcia statystycznego. Zanim jednak do tego przejdziemy zobaczmy, jak miary odwołujące się do wyjaśnionej wariancji mogą być stosowane w typowo eksperymentalnym kontekście, w którym głównym celem analizy są porównania między grupami (czyli takie, jakie rozważaliśmy w dotychczasowych edycjach Biuletynu).

Na początek wyobraźmy więc sobie zupełnie hipotetyczną sytuację, w której w dwóch dziesięcioosobowych grupach mierzymy natężenie lęku (za pomocą jakiegoś autorskiego kwestionariusza), i w jednej grupie wszystkie osoby uzyskują ten sam wynik, równy 10 punktów, zaś w drugiej grupie wszystkie osoby uzyskują identyczny wynik równy 30 punktów. Wyniki wyglądają więc następująco:

 

Wariant 1

Grupa 1:        10,       10,       10,       10,       10,       10,       10,       10,       10,       10

Grupa 2:        30,       30,       30,       30,       30        30,       30,       30,       30,       30

 

Oczywiście średnie tych grup (10 i 30) są odmienne, a wyniki nie pokrywają się w żadnym stopniu, mamy więc do czynienia z idealną różnicą międzygrupową. Jeśli przebadane dwadzieścia osób potraktujemy jako jeden zbiór, od razu zobaczymy, że jedynym czynnikiem związanym z różnicami w wynikach (czyli tym, czy osoba uzyskała 10, czy 30 punktów) jest przynależność do pierwszej lub drugiej grupy. Innymi słowy, podział ten w 100% tłumaczy zróżnicowanie wyników naszych badanych osób.

Urealniając nieco tę sytuację wyobraźmy sobie teraz, że w pierwszej grupie średni wynik wciąż wynosi 10 punktów, jednak tym razem badani w tej grupie nieco się od siebie różnią, a ich wyniki zawierają się w zakresie od 6 do 14 punktów. W grupie drugiej średni wynik wciąż wynosi 30 punktów, ale także tutaj badani nie wypadli identycznie, i wyniki w tej grupie zawierają się w zakresie od 25 do 36 punktów.

 

Wariant 2

Grupa 1:        12,       9,         13,       9,         11,       7,         14,       10,       6,         9

Grupa 2:        29,       31,       24,       33,       25,       26,       36,       31,       30,       35

 

Różnica między grupami ciągle jest „idealna” – średnie leżą od siebie na tyle daleko, że rozkłady obu grup nie pokrywają się (najwyższy wynik w grupie pierwszej jest niższy od najniższego w grupie drugiej). Jednak patrząc na łączne wyniki tych dwudziestu osób widzimy, że ich zróżnicowanie nie jest związane tylko z podziałem na grupy, ale też z jakimiś innymi czynnikami, które sprawiają, że osoby w grupie pierwszej i drugiej nie mają wyników identycznych. Te czynniki mogą być jak najbardziej określone (np. wiek), choć pewnie nie zawsze damy radę je zidentyfikować. Może to być też efekt czysto losowego błędu pomiaru (nie ma wszak narzędzi idealnych i nasz kwestionariusz raczej nie będzie wyjątkiem). Tak czy inaczej pewne jest, że sam podział na grupy nie tłumaczy w 100% zróżnicowania wyników. Jest jednak czynnikiem bardzo istotnym – mając wynik pojedynczej osoby z łatwością stwierdzimy, czy pochodzi ona z pierwszej, czy z drugiej grupy.

Zbliżając sytuację jeszcze bardziej do wyników, jakie uzyskujemy często w badaniach psychologicznych, wyobraźmy sobie jeszcze wariant trzeci. W pierwszej grupie średni wynik wciąż wynosi 10, jednak zakres uzyskiwanych punktów rozciąga się od 1 do 26. W grupie drugiej, przy zachowaniu średniej 30, zakres wyników rozciąga się tym razem od 14 do 47 punktów.

 

Wariant 3

Grupa 1:        1,         3,         22,       3,         14,       5,         8,         12,       26,       6

Grupa 2:        18,       47,       23,       14,       39,       17,       42,       52,       14,       34

 

Widać więc wyraźnie, że mimo różnicy średnich, rozkłady obu grup częściowo się pokrywają (a dokładnie – w przedziale od 14 do 26 punktów). Mając do czynienia z osobą, której wynik wynosiłby np. 20 punktów, nie możemy być pewni, do której z grup należy. Patrząc ponownie na łączne wyniki dwudziestu osób, coraz trudniej nam stwierdzić, w jakim stopniu ich zróżnicowanie jest związane z podziałem na grupy, a w jakim stopniu z innymi czynnikami.

W sytuacjach takich jak opisana w trzecim wariancie potrzebujemy więc jakiejś metody, która pozwoli nam ocenić, jak duży związek ma podział na grupy ze zróżnicowaniem wyników w naszej badanej próbie. Do tej pory skupialiśmy się na miarach, które pokazują wielkość różnic międzygrupowych. Dla przykładu, w trzecim z przytoczonych wyżej wariantów d Cohena wynosi 1.69, co oznacza, że średnie obu grup są od siebie oddalone o niecałe dwa odchylenia standardowe. Około 40% rozkładów grupowych pokrywa się, i istnieje mniej więcej jedna szansa na dziesięć, że losowa osoba z pierwszej grupy będzie miała wynik wyższy niż losowa osoba z grupy drugiej.

Teraz jednak chcielibyśmy ocenić nie odległość między średnimi, ale to, w jakim stopniu podział na grupy jest związany ze zróżnicowaniem wyników w obrębie całej puli osób badanych (czyli – przy założeniu, że na wynik osoby badanej wpływają różnorodne czynniki – chcemy ocenić, jak duża jest w nich rola przydziału do grupy). W poprzednim Biuletynie wprowadziliśmy w tym kontekście współczynnik korelacji punktowo-dwuseryjnej (oznaczany zwykle rpb lub po prostu r, gdyż bazuje on na klasycznym współczynniku korelacji Pearsona). Korelacja punktowo-dwuseryjna służy do określenia siły związku między zmienną ciągłą (w naszym przykładzie – wynik kwestionariusza) a nominalną zmienną dwuwartościową (w naszym przykładzie – przynależność do grupy). W trzecim z przedstawionych wariantów rpb wynosi 0.66. Korelacja punktowo-dwuseryjna (przyjmująca wartości od -1 do 1) jest interpretowana tak samo jak „klasyczny” współczynnik korelacji, można więc śmiało powiedzieć, że związek (między wynikiem kwestionariusza a zmienną grupującą) na poziomie 0.66 jest związkiem umiarkowanie silnym (znak ujemny lub dodatni w wypadku rpb oznacza jedynie, która z grup ma wyniki wyższe, a która niższe; ponieważ przy zmiennych kategorialnych kolejność grup jest zazwyczaj dowolna, w praktyce nie ma on większego znaczenia przy interpretacji).

Jeżeli zbiór danych spełnia założenia podobne, jakich oczekujemy np. przy teście t Studenta (normalność rozkładów w grupach, homogeniczność wariancji), uprawnione jest interpretowanie wartości rpb2 (współczynnik korelacji do kwadratu) w kategoriach wariancji wyjaśnionej przez czynnik grupujący.  W naszym wypadku (0.66)2 = 0.44, co oznacza, że podział na grupy tłumaczy około 44% ogólnej zmienności wyników w naszej dwudziestoosobowej próbie. Przy spełnieniu odpowiednich założeń wartość rpb daje się też przeliczyć na d Cohena (i odwrotnie).

Częste są jednak badania, w których porównywane są wyniki nie dwóch, ale trzech lub więcej grup (np. osób z wykształceniem podstawowym, średnim i wyższym). Najczęściej stosowane miary oparte na standaryzowanej różnicy między średnimi (d Cohena, delta Glassa) pozwalają tylko na porównania parami, naszym celem może być jednak ocena ogólnego związku czynnika grupującego (np. wykształcenia) z wynikami badanych osób. W takim wypadku miary odnoszące się do proporcji zmienności wyjaśnionej są zdecydowanie bardziej adekwatne. W przypadku analiz międzygrupowych najczęściej stosowaną i przytaczaną w artykułach naukowych jest tzw. η2 (eta2).

Obliczanie eta2 jest oparte na analizie wariancji, a jej interpretacja jest identyczna jak rpb2, czyli mówimy o tym, jak dużą część ogólnej zmienności wyników można powiązać z wielowartościowym czynnikiem grupującym. W przypadku czynnika dwukategorialnego obie wartości powinny być podobne i tak też jest w naszym przypadku, gdzie obliczona dla trzeciego z przykładów eta2 wynosi 0.44. Oczywiście ocena, czy to dużo, czy mało, jest – tak jak w przypadku innych miar wielkości efektu – relatywna i zależy od przedmiotu badania. Spotykane w literaturze, cytowane za pracami J. Cohena (1988) sugestie, by wartości eta2 powyżej 0.01 interpretować jako małe, powyżej 0.06 jako średnie, a powyżej 0.14 jako wysokie, należy traktować jako bardzo umowne.

Analiza wariancji jest oczywiście metodą dość elastyczną i pozwala na ujęcie w jednym modelu równocześnie kilku czynników oraz ich interakcji (np. w celu określenia, w jaki sposób płeć i poziom wykształcenia łącznie są związane z wynikami w teście psychologicznym). W tej sytuacji jednak określenie, jak dużą cześć zmienności wyników można powiązać z poszczególnymi czynnikami, nieco się komplikuje. Obok „klasycznej” eta2 można wyliczyć też tzw. cząstkową eta2 (czyli etap2), a każda z tych miar ma nieco inne zastosowanie. W kolejnym Biuletynie postaram się więc pokazać, jak prawidłowo należy interpretować te dwa współczynniki, zaprezentuję też inne miary wielkości efektu, które są czasem przytaczane przez badaczy posługujących się w swych obliczeniach analizą wariancji.

 

dr Piotr Zieliński

Wojskowy Instytut Medycyny Lotniczej

 

Źródło:

Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences, 2nd Edition. Hillsdale, NJ: Lawrence Erlbaum.