最初は初心者向けでわかりやすいんだけど、読み進めていくとカイ二乗・・・何それ?って感じの専門用語も出てくる部分もあってちょっとつらかった。
恐らく、基本中の基本なんだろうけど、アンケートなど全員に取るのと、一部抽出した人からとっても精度がそれほどかわらないという、今まで聞いたことあるけど、なんでかわからなかった理由などわかってよかったと思う。
二万人中千人へのアンケートに関わったことあるのですが、無作為に抽出しても、例えば対象が全部女性になったらどうするんだという考えも思いつくわけです。アンケートの母体が男女比が半々として、1000人全部が女性の確立なんて、1/2x9999/19999x9998/19998,,,x9000/19000(合ってますよね?)となって、非常におおざっぱに計算すると1/2^1000という非常にゼロに近い数字になってしまうわけです。
本書では、最近はやりのビッグデータにも触れていました。大量にデータを集めたところでどうなるんだということでしょう。行の部分を増やしたところで、一定以上は精度とコストが見合わないのですね。
ただ、私はビッグデータというのは行じゃなくてテーブル連結して、列の部分を膨大にして相関関係を調べるのかと思っていましたが、そうでもないようですし(合ってます?)、列を膨大に増やしたところで、一定の傾向など調べるには、それに見合った行の数が必要になるわけで、それはそれで、コストと精度が果たして見合ったものになるのかも疑問と言えば疑問です。
素人が入門書を読んだところでどうにかなるわけでもないので、次にこのようなアンケートをする機会があれば、予算をつけてもらって統計学者の意見を聞くのがいいのかなと思いました。
本 読んだ本 Posted by .(JavaScript must be enabled to view this email address)