シンプソンのパラドックス(ユール=シンプソン効果) | あむぶろ 学校では教えてくれない大切なこと

雑学

シンプソンのパラドックス(ユール=シンプソン効果)

投稿日:

シンプソンのパラドックスは、統計において直観的な印象と事実が異なる現象です。

統計によって導き出された内容は、その統計の分析方法や収集の際の情報不足などの問題によって、正しい分析結果を導きだせない事ががあるため注意が必要です。

特に、無意識に集めた情報に偏りが発生することもあるため、統計の収集方法は慎重に考慮しなければいけません。

例えば、該当アンケート(無償)でボランティアをした事がある人の割合を調査する場合、基本的にアンケートの解答者は誰かに手を差し伸べる傾向が強いと言えます。

そのため、ボランティアをした事があると回答する人の割合は本来の数値よりも高くなる可能性が高いです。

このように、データを収集・分析する際には数字として表れない要素にも注意が必要になります。

具体例

高等学校の同学年のA・B・C学校で同様の学力テストを行いました。
男女の平均点を確認したところ、このような結果になりました。

クラス平均点
A学校 男子60点
A学校 女子40点
B学校 男子40点
B学校 女子60点
C学校 男子65点
C学校 女子45点

直感的に各学校の平均点は「C学校>A学校≒B学校」であると考えてしまう人が多いと思います。

その際の計算としては

  • A学校男女の平均((60点+40点)÷2=50点)は50点
  • B学校男女の平均((40点+60点)÷2=50点)は50点
  • C学校男女の平均((65点+45点)÷2=55点)は55点

このような推論する人は多いと思いますがこれは誤解です。

この統計を分析するためには男女比の情報が必要になります。

しかし、多くの人は男女比をほぼ同程度であるという前提で予測をしてしまい、間違った分析をしてしまいます。
男女比の情報を考慮すると「A学校>C学校>B学校」となります。

A・B学校の比較

A・B学校の平均点は同程度だと認識してしまう人が多いと思います。
しかし、この平均点は男女別の平均であるため、このデータだけではその学校の平均点がわかりません。

ここで大切になるのは男女の人数比です。

A・B学校は男性比率の多い学校でそれぞれ、男子300人女子100人の構成となっています。

そのため、

  • A学校の平均点は55点
    (男300人×60点+女100人×40点)÷男女400人=55点
  • B学校の平均点は45点
    (男300人×40点+女100人×60点)÷男女400人=45点

となり、A・B学校の平均点は10点も差がでるため、学力の違いは大きいと判断できます。

A・C学校の比較

A学校(男60点、女40点)とC学校(男65点、女45点)ではC学校の方が男女共にC学校の方が平均点は高いです。
そのため、C学校の方が全体の平均点は高いと思いがちですが

  • A学校の平均点は55点
    (男300人×60点+女100人×40点)÷男女400人=55点
  • C学校は男100人、女300人で平均点は50点
    (男100人×65点+女300人×45点)÷男女400人=50点

となり、実際はA学校の方が学力が高いです。

統計の分析について

各学校の平均点は「C学校>A学校≒B学校」と認識する人が多いと思いますが、実際に計算を行うと「A学校>C学校>B学校」となりました。

男女比が同程度であるという前提条件が覆されたため、予測とは異なった結果となりました。

このように情報が不足している場合には統計の分析結果として、正しい答えが導かれない事もあります。
そのため、統計を分析する際には、その統計の根拠も確認する必要があります。

シンプソンのパラドックスの問題点

シンプソンのパラドックスの大きな問題点が生存者バイアスです。

生存者バイアスはいき残っているものの意見を取り入れるため、死んだものの事案が含まれていません。

例えば、企業や投資などで成功した者からその要素を分析する場合は、その過程でリスクを取り過ぎて再起不能になるような大きな失敗をした者は統計には含まれていません。

つまり、破産するような大きな失敗をした者はその過程で淘汰されているため、成功者の失敗談には大きな失敗は含まれていません。

そのため、破産するような大きな失敗を統計に含ませたい場合は、成功する前の課程から挑戦している人を追跡調査する必要があります。

まとめ

シンプソンのパラドックスが起こる要因は様々で、統計データの情報が不足していたり、分析方法に問題があったり、先入観による誤った統計データの収集や、故意にデータを偏らせる事など、多くの要因から誤った結果を導いてしまう可能性が発生するため、統計の元データをどのように集め、それをどのように分析するのかは重要です。

例えば車の平均速度を10分毎に測定した統計データを取った場合、最高速度も最低速度もそのデータに保存されていない可能性が高く、この収集したデータはどのようにすれば情報を活かす事ができるのかは疑問です。

また、偏った認識を持つ人が自分の認識に合わせて情報を収集する事もあります。

偏った環境で偏ったサンプルを少量だけ採取し、それが全国の統計であるような振る舞いをし、都合の良い方へ導いている事もあります。

極端な例では、大学の前で20歳前後の人に1人だけ大学進学率のアンケートを取ると、大学の進学率が100%になります。
このように、サンプル数と環境によって偏りが多きいデータが採取できます。

しかし、このような方法を無意識的にしてしまう事もあるため、注意が必要です。

備考

シンプソンのパラドックスはユール・シンプソン効果とも呼ばれています。

関連記事

 生存者バイアス

アドセンス

アドセンス

-雑学

執筆者:

関連記事

批判的思考(クリティカルシンキング)

批判的思考(クリティカルシンキング)とは 概要 批判的思考(クリティカルシンキング)は客観的に物事を判断して物事の本質を捉える能力です。常に正しいか疑って物事の真理を確かめて本質を見極める能力です。論 …

ワニのパラドックス(人食いワニのジレンマ)

ワニのパラドックス(人食いワニのジレンマ)とは 概要 人食いワニのパラドックスはは”人食いワニ”が”子供を助けたい親”に対して謎かけを行いますが「ワニが出題する問題」に矛盾があるためパラドックスが発生 …

マルチタスク

マルチタスクとは 概要 マルチタスクは「複数の仕事を並列処理、または短時間に切り替えながら処理を行う」という事を意味する単語です。語弊を恐れずに簡単に説明すると「一つの事にのみ集中して取り組んでいる状 …

世界五分前仮説

世界五分前仮説とは 概要 世界五分前仮説は「世界は五分前に始まった」という思考実験における仮説です。多くの人は「5分以上前からこの世界はある」と認識していると思いますが、実際に私たちには”5分以上前の …

全能のパラドックス(全能の逆説)

全能のパラドックス(全能の逆説)とは 概要 全能のパラドックスは「全能には論理的な矛盾が発生してしまう」という全能を否定するパラドックスになっています。全能のパラドックスの論理的な矛盾を語弊を恐れずに …

Google AdSense



管理人


あむぶろ
管理人情報


名前:

画像に alt 属性が指定されていません。ファイル名: f81fd2e4c52864042852c112ce927ae2-1.png鈴木 歩(すずき あゆむ)

自己紹介:

日本の未来を支える若者を応援したいので
「有料情報よりも価値がある情報を無料で
提供する」事を目指しています。


ブログについて:

当ブログでは生活をするためには大切でも
学校では教えもらえない事をメインに
取り扱っています。
知識のみではなく価値観を見直す事のできる
情報を提供したいと考えています。

外部リンク

応援していただけると幸いです。

PVアクセスランキング にほんブログ村

あむぶろ 学校では教えてくれない事 - にほんブログ村

にほんブログ村 哲学・思想ブログへ

にほんブログ村 ライフスタイルブログへ

にほんブログ村 投資ブログへ





Verified by MonsterInsights