Mediana w statystyce: co to jest i jak ją obliczyć?
Czym jest mediana w statystyce?
Mediana to jedna z podstawowych miar tendencji centralnej w statystyce opisowej, obok średniej arytmetycznej i dominanty. Jest to wartość, która dzieli uporządkowany zbiór danych na dwie równe części – połowa wartości jest mniejsza lub równa medianie, a druga połowa jest większa lub równa medianie. Inaczej mówiąc, mediana to wartość środkowa w uporządkowanym zbiorze danych.
Mediana jest szczególnie przydatna w przypadku zbiorów danych zawierających wartości skrajne (tzw. outliers), ponieważ w przeciwieństwie do średniej arytmetycznej, jest ona odporna na te wartości. To sprawia, że mediana często lepiej reprezentuje „typową” wartość w zbiorze danych niż średnia arytmetyczna.
Jak obliczyć medianę?
Obliczanie mediany zależy od tego, czy mamy do czynienia z parzystą czy nieparzystą liczbą obserwacji w zbiorze danych. Poniżej przedstawiam krok po kroku, jak obliczyć medianę w obu przypadkach.
Krok 1: Uporządkuj dane
Pierwszym krokiem w obliczaniu mediany jest uporządkowanie wszystkich wartości w zbiorze danych od najmniejszej do największej.
Krok 2: Znajdź wartość środkową
Po uporządkowaniu danych, sposób znalezienia mediany zależy od liczby obserwacji:
Dla nieparzystej liczby obserwacji
Jeśli liczba obserwacji jest nieparzysta, mediana to po prostu wartość środkowa w uporządkowanym zbiorze. Możemy ją znaleźć za pomocą wzoru:
\[ Me = x_{\frac{n+1}{2}} \]
gdzie:
- \(Me\) to mediana
- \(x_{\frac{n+1}{2}}\) to wartość na pozycji \(\frac{n+1}{2}\) w uporządkowanym zbiorze
- \(n\) to liczba obserwacji
Dla parzystej liczby obserwacji
Jeśli liczba obserwacji jest parzysta, nie ma dokładnie środkowej wartości. W tym przypadku mediana jest średnią arytmetyczną dwóch środkowych wartości. Wzór na medianę wygląda następująco:
\[ Me = \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}+1}}{2} \]
gdzie:
- \(Me\) to mediana
- \(x_{\frac{n}{2}}\) to wartość na pozycji \(\frac{n}{2}\) w uporządkowanym zbiorze
- \(x_{\frac{n}{2}+1}\) to wartość na pozycji \(\frac{n}{2}+1\) w uporządkowanym zbiorze
- \(n\) to liczba obserwacji
Przykłady obliczania mediany
Przykład 1: Nieparzysta liczba obserwacji
Rozważmy następujący zbiór danych: 3, 7, 8, 5, 12, 14, 21
Krok 1: Uporządkujmy dane rosnąco: 3, 5, 7, 8, 12, 14, 21
Krok 2: Mamy 7 obserwacji (nieparzysta liczba), więc mediana to wartość na pozycji \(\frac{7+1}{2} = 4\).
Mediana = 8 (czwarta wartość w uporządkowanym zbiorze)
Przykład 2: Parzysta liczba obserwacji
Rozważmy następujący zbiór danych: 3, 7, 8, 5, 12, 14, 21, 9
Krok 1: Uporządkujmy dane rosnąco: 3, 5, 7, 8, 9, 12, 14, 21
Krok 2: Mamy 8 obserwacji (parzysta liczba), więc mediana to średnia wartości na pozycjach \(\frac{8}{2} = 4\) i \(\frac{8}{2}+1 = 5\).
Mediana = \(\frac{8 + 9}{2} = 8,5\)
Mediana dla danych pogrupowanych
W przypadku danych pogrupowanych (np. przedstawionych w formie tabeli częstości), obliczanie mediany jest nieco bardziej skomplikowane. Musimy najpierw znaleźć przedział, w którym znajduje się mediana, a następnie zastosować interpolację liniową.
Wzór na medianę dla danych pogrupowanych:
\[ Me = L + \left( \frac{\frac{n}{2} – F_{poprz}}{f_{Me}} \right) \times h \]
gdzie:
- \(L\) to dolna granica przedziału zawierającego medianę
- \(n\) to liczba wszystkich obserwacji
- \(F_{poprz}\) to skumulowana częstość dla przedziału poprzedzającego przedział mediany
- \(f_{Me}\) to częstość przedziału zawierającego medianę
- \(h\) to szerokość przedziału
Przykład 3: Mediana dla danych pogrupowanych
Rozważmy następujący rozkład wieku osób w pewnej grupie:
| Przedział wieku | Liczba osób (częstość) | Skumulowana częstość |
|---|---|---|
| 18-22 | 15 | 15 |
| 23-27 | 22 | 37 |
| 28-32 | 18 | 55 |
| 33-37 | 12 | 67 |
| 38-42 | 8 | 75 |
Łączna liczba obserwacji wynosi 75, więc mediana znajduje się na pozycji \(\frac{75}{2} = 37,5\). Z tabeli widzimy, że skumulowana częstość 37 odpowiada przedziałowi 23-27, a następny przedział zaczyna się od skumulowanej częstości 55. Zatem mediana znajduje się w przedziale 28-32.
Stosując wzór:
\[ Me = 28 + \left( \frac{37,5 – 37}{18} \right) \times 5 = 28 + \frac{0,5}{18} \times 5 = 28 + 0,139 = 28,14 \]
Mediana wieku w tej grupie wynosi około 28,14 lat.
Mediana a średnia arytmetyczna
Mediana i średnia arytmetyczna to dwie różne miary tendencji centralnej, które mogą dostarczać odmiennych informacji o zbiorze danych:
| Mediana | Średnia arytmetyczna |
|---|---|
| Odporna na wartości skrajne (outliers) | Wrażliwa na wartości skrajne |
| Reprezentuje wartość środkową | Reprezentuje wartość przeciętną |
| Nie uwzględnia wszystkich wartości w obliczeniach | Uwzględnia wszystkie wartości w obliczeniach |
| Lepsza dla danych skośnych lub z wartościami skrajnymi | Lepsza dla danych o rozkładzie symetrycznym |
Aby lepiej zrozumieć różnicę między medianą a średnią, rozważmy następujący przykład:
Zarobki 5 osób (w tysiącach złotych): 3, 4, 5, 6, 42
Średnia arytmetyczna: \(\frac{3 + 4 + 5 + 6 + 42}{5} = \frac{60}{5} = 12\) tys. zł
Mediana: 5 tys. zł (środkowa wartość w uporządkowanym zbiorze)
W tym przypadku jedna skrajna wartość (42) znacząco podniosła średnią, podczas gdy mediana pozostała odporna na tę wartość. Dlatego mediana (5 tys. zł) lepiej reprezentuje „typowe” zarobki w tej grupie niż średnia (12 tys. zł).
Kiedy używać mediany?
Mediana jest szczególnie przydatna w następujących sytuacjach:
- Gdy dane zawierają wartości skrajne (outliers), które mogłyby zniekształcić średnią
- Dla danych o rozkładzie skośnym (asymetrycznym)
- Dla danych porządkowych (gdy możemy je uszeregować, ale różnice między wartościami nie mają interpretacji ilościowej)
- W analizach dotyczących dochodów, cen nieruchomości i innych zmiennych ekonomicznych, które często charakteryzują się skośnym rozkładem
- Gdy chcemy znaleźć „typową” wartość, która nie jest zaburzona przez wartości ekstremalne
Kalkulator mediany
Poniżej znajduje się prosty kalkulator, który pomoże Ci obliczyć medianę dla Twojego zbioru danych. Wystarczy, że wpiszesz wartości oddzielone przecinkami lub spacjami.
Zastosowania mediany w praktyce
Mediana znajduje szerokie zastosowanie w różnych dziedzinach:
- Ekonomia i finanse – do analizy dochodów, cen nieruchomości, wynagrodzeń
- Medycyna – do oceny skuteczności terapii, czasu przeżycia pacjentów
- Demografia – do analizy wieku populacji, mediany wieku w różnych regionach
- Edukacja – do analizy wyników testów i egzaminów
- Statystyka społeczna – do badania poziomu życia, wydatków gospodarstw domowych
Podsumowanie
Mediana to wartość środkowa w uporządkowanym zbiorze danych, która dzieli ten zbiór na dwie równe części. Jest ona jedną z podstawowych miar tendencji centralnej w statystyce opisowej, obok średniej arytmetycznej i dominanty.
Główne zalety mediany to:
- Odporność na wartości skrajne (outliers)
- Prostota interpretacji jako wartości środkowej
- Przydatność dla danych o rozkładzie skośnym
- Możliwość zastosowania do danych porządkowych
Aby obliczyć medianę, należy uporządkować dane od najmniejszej do największej wartości, a następnie znaleźć wartość środkową (dla nieparzystej liczby obserwacji) lub średnią dwóch środkowych wartości (dla parzystej liczby obserwacji).
Pamiętaj, że wybór między medianą a średnią arytmetyczną powinien zależeć od charakterystyki danych oraz celu analizy. W wielu przypadkach warto obliczyć obie te miary, aby uzyskać pełniejszy obraz badanego zjawiska.
