Парадокс симпсона
May. 1st, 2016 02:25 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
Узнал недавно про интересную аномалию в статистике под названием парадокс Симпсона. Тренд, заметный в сводных данных, может исчезнуть или вообще развернуться если смотреть на отдельные группы без агрегации.
Самый известный пример такой: в 1973 году на Калифорнийский университет подали в суд за дискриминацию представителей женского пола. Главный аргумент был сделан на основе вот этих данных:
Количество кандидатов |
Доля поступивших |
|
Мужчины |
8442 |
44% |
Женщины |
4321 |
35% |
В данных отчетливо видно, что доля поступивших среди мужчин выше чем среди женщин. Университет очень удивился, поскольку был либеральным и всеми силами придерживался политики исключения дискриминации по половому признаку. Когда полезли разбираться и стали смотреть разбивку по кафедрам, то ситуация оказалась диаметрально противоположной: на трёх из пяти крупнейщих кафедрах женщины имели большую долю поступивших и только в двух мужчин принимали больше, да и там преимущество было незначительным.
Мужчины |
Женщины |
|||
Количество кандидатов |
Доля поступивших |
Количество кандидатов |
Доля поступивших |
|
Кафедра 1 |
825 |
62% |
108 |
82% |
Кафедра 2 |
560 |
63% |
25 |
68% |
Кафедра 3 |
325 |
37% |
593 |
34% |
Кафедра 4 |
417 |
33% |
375 |
35% |
Кафедра 5 |
191 |
28% |
393 |
24% |
То есть, результат в агрегации и в разбивке давал абсолютно разную картину. Если внимательно посмотреть таблицу выше, то становится понятно почему так получилось. Большинство женщин пошли на кафедры где мало свободных мест и выше конкуренция. Большинство же мужчин хотели поступить на кафедры с низкой конкуренцией и процент поступивших существенно выше. Поэтому в разрезе по кафедрам доля поступивших мужчин ниже чем у женщин, а в общей агрегации ситуация менялась. Проблему первой таблицы могло бы исправить применение “средневзвешенного” вместо “среднего арифметического”.
Так что советую держать в уме когда читаете статистику в прессе.