Lecture 7:
統計アタマへ切り替える
Lecture Content
ビジネス統計学初級の講座を始めます。
第1章:統計アタマへ切り替える
まず入門のおさらいをしたいと思います。
入門では
・ヒストグラムの書き方
・平均の出し方や意味合い
・データの散らばりを表現するために分散や標準偏差を計算する方法
をお伝えしました。
初級編ですので、より統計学の内容についてお話ししていきたいと思っています。
統計学の重要なコンセプトは、大きく三つあります。
・分布
・推定
・仮説検定
です。これよりも発展的なものとしては「統計のモデリング」などもありますけども、まず重要な基礎部分としては以上三つを理解することが重要です。
改めて統計学とは何なのかを説明します。
統計学とはサンプルを通じて「母集団の傾向や性質」を調べる学問です。
あくまで手元にあるデータではサンプルであり、そこから母集団は一体どうなってるのかということを知っていく、調べていくということになります。
母集団の傾向や性質と一言で言っても、一体何なのか? これは母集団のばらつき、 言い換えれば分布を知りたいのです。
繰り返しになりますが、サンプルと母集団を区別するということは非常に重要です。
入門編で学習した平均や中央値・分散や標準偏差を計算するということはすべてサンプルの世界の中の話です。
今手元にあるデータは母集団全てのデータなのか、もしくはそこからランダムで取ってきたサンプルのデータなのかということを常に意識して、区別する必要があります。
ではサンプルの世界から母集団の世界を推測するにはどうしたらいいのか?ということが問題になります。なぜならいつも手元にあるデータはサンプルであり、母集団のばらつき、本当のばらつきや本当の平均を知ることはできないからです。
実は統計学には、そのようにサンプルから母集団を推測するためにはどうすればいいかということが考えられていて、答えを言うと、母集団はその分布に従っていると仮定する、というのがポイントとなります。
ですので、サンプルが出てきた時に、実は母集団の性質上、母集団はこう言った分布に従うだろうということを仮定しておくことが、統計学の考え方になります。
分布の形というのは統計学の言葉で「理論分布」と呼ばれます。
・「分布の型」は理論分布と呼ばれる
・理論分布の形はパラメーターと呼ばれるいくつかの数値で決められる
・サンプルから全てのパラメーターを推定できれば、母集団の分布がわかる
具体的な例で見ていきたいと思います。
あるEコマースサイトにおけるある商品の注文データがあります。現状のアルバイトの数だと1日5個までしか処理できません。今後のアルバイトの人数を検討するため、1日6個以上売れる日がどのくらいの確率で発生するのかを知りたいと考えています。
ここでデータが手元にあるときに何をしなきゃいけないかと言うと、入門編でもお伝えしたとおり、まずはヒストグラムを書きます。
・ヒストグラムを作ると、めったに注文が入らないことがわかる
・しかも、6個以上売れた日はない
・では、6個以上売れる確率はゼロなのか?
サンプルデータとして1月のデータありますが、実は6個以上売れる確率が全くないかと言うと、母集団という風な考え方をすればそうではないということが直感的に分かっていただけるかもしれません。そうすると、母集団に何らかの分布の形を指定するということになります。
その際には「ポアソン分布」というのを仮定するとうまくいきます。というのは、その分布は「滅多に起こらない事象を表現するための分布」なのです。
ポアソン分布に当てはまるケースということでいくつか例を挙げます。
・ある交差点で1時間に起こる事故の件数
・1ページの文章で誤字がある個数
・1時間に来店する客の数
ある事象が何回発生するか、何個発生するかというようなことはポアソン分布で表現できるというのが、統計学の世界では分かっています。
ちなみにポアソン分布は、1837年にシメオン・ドニ・ポアソンという人が発見・発表しました。1898年にプロイセン陸軍の騎兵連隊で「馬に蹴られて死亡する兵士の人数」がポアソン分布に従うということがわかり、有名になりました。
ポアソン分布は、
・一定期間(もしくは一定空間)で
・ある事象は平均○○回発生する
と表現するのですが、この「平均○○回」というのがポアソン分布のパラメーターになっています。
では、どのようにその分布のパラメーター、つまり平均○○回という部分をサンプルから推定できるのか?というと、実は母集団がポアソン分布だと仮定すると、
・サンプルの平均=母集団の平均の推定値
として、おかしくないことが分かっています。
サンプルの平均が1.8だった場合、母集団の平均も大体1.8だろうというふうに推定して構わないということが理論的に分かっています。
「おかしくない」とはどういうことかというと、母集団の分布をポアソン分布とした場合、サンプル平均は
1. サンプル数を増やしていくと、母集団の平均に近づく(一致性)
2. 同じ調査を何度も繰り返して「サンプル平均」の平均を計算すると、概ね母集団の平均になる(不偏性)
のどちらかになります。良い推定量の要件には、上記以外に「十分性」「有効性」がありますが、サンプル平均はこれらの要件を満たしています。
一致性というのはどういうことかというと、今回の例でいくと、日数、要は2016年1月のデータだけではなく、どんどんサンプル数、調査する日数を増やすとだんだん本当の母集団ベースの平均の推定値・一日あたり何個売れるのかという推定値に近づいていくということになります。
そして不偏性ですが、まず母集団からサンプルを取ります。そしてそのサンプルはを何回も何回も繰り返すと、そのサンプルの中のデータというものは変わっていきます。何度も何度も繰り返したあとにその分布がどうなるかと言うと、綺麗な山型のグラフで表すことのできるデータになります。母集団から何度もサンプリングしてサンプル平均を求めると、真の平均の周辺に集まるということです。
Excelでの求め方です。確率というのは全部足すと1になりますので、
1日6個以上売れる確率=1-1日5個以下売れる確率
となります。Excelには「POISSON.DIST」という関数が用意されていますので、上記の考え方に当てはめると、
1-POISSON.DIST(5,1,8, TRUE)
=1-0.99
=0.01
となります。1%の確率で6個以上売れるということです。
まとめると以下のとおりです。
・母集団の分布を仮定する
・サンプルの平均を計算する
・計算したサンプルの平均を母集団の平均として当てはめる
・知りたい確率を計算する
続いての章では演習を通してより理解を深めていけるように、一緒に手を動かしていきましょう。