シンプソンのパラドックス(1)
今回はシンプソンのパラドックス(Simpson's paradox)の紹介です。
たとえば、ある病気に対して、薬Aと薬Bが新たに開発されたとします。そこで、どちらの薬を使うべきかを検討したいと思います。
多くの人に薬Aと薬Bを使ってみて、効果の有無を調べてみました。
次の表がその結果です。どちらの薬の方が効果が高いと言えるでしょうか。
性別 | 薬A | 薬B | ||
---|---|---|---|---|
効果あり | 効果なし | 効果あり | 効果なし | |
男性 | 950 | 50 | 9000 | 1000 |
女性 | 5000 | 5000 | 50 | 950 |
「効果あり」の割合は次のようになります。
-
男性:薬Aは950
950 + 50= 95%、薬Bは9000
9000 + 1000= 90% -
女性:薬Aは5000
5000 + 5000= 50%、薬Bは50
50 + 950= 5%
よって、男性に対しても女性に対しても、薬Aの方が薬Bよりも効果が高いと言えます。
では、男女を合計するとどうなるでしょうか。
性別 | 薬A | 薬B | ||
---|---|---|---|---|
効果あり | 効果なし | 効果あり | 効果なし | |
男性 | 950 | 50 | 9000 | 1000 |
女性 | 5000 | 5000 | 50 | 950 |
合計 | 5950 | 5050 | 9050 | 1950 |
-
「効果あり」の割合は、薬Aは5950
5950 + 5050= 54%、 薬Bは9050
9050 + 1950= 82%
したがって、男女合計では薬Bの方が薬Aよりも効果が高いと言えます。
男女それぞれだと薬Aの方が優秀なのに、男女合計だと薬Bの方が優秀という結果になりました。直感に反する矛盾した結果に思えるかもしれませんが、計算は間違っていません。
このように、「母集団での相関」と「母集団を分割した集団の相関」は一致しないということがあります。別の言い方をすると、集団を2つに分けた場合にある仮説が成立したとしても、集団全体ではその仮説が成り立つとは限らないということです。これをシンプソンのパラドックスといいます。シンプソンは英国の統計学者(1922–2019)です。
とはいえ、パラドックスと言っても、数学的には何もおかしくはありません。
A
B>C
Dかつa
b>c
dだからといって、A+a
B+b>C+c
D+dが常に成立するわけではないのです。
統計数字が並ぶとつい客観的なものだと感じてしまいますが、このシンプソンのパラドックスのように、データをどう切り取るかによって主観的な結論を導くことができるということは忘れてはいけません。
このように、統計にはいろいろ面白い話があります。データをどう収集するかについても、収集したデータをどう解釈するかについても、注意しなければならない要素がたくさんあって、一筋縄ではいきません。騙されないようにするためには、まずは各人がしっかり勉強していくことが大切です。