kyoneco’s blog

教育、数学、統計といったテーマについて考えていきます

統計モデリング

統計モデリングについて最近よく考えています。統計モデリングは、確率分布を利用して数理モデルをつくり現象の理解や予測を行う行為です。確率分布は統計モデリングにおいて構成要素となる重要な部品です。知りたい現象がどのような確率変数として表せ、どのような確率分布に従うのかを考える必要があります。つまり、確率変数を導入し、それがどのような確率分布に従うかを考え、モデル式としてそれを表現します。モデル式として表せたらシミュレーションすることができます。得られた推定結果を解釈して、知りたい現象の予測などに役立てます。この一連の過程が統計モデリングに含まれます。

知りたい現象、確率変数、モデル式のように分解して考えると理解が容易です。例えば、予測したいものとして、アイスクリームの売上があるとします。売上に影響を与える要素として、気温、天気、アイスクリームの価格が挙げられます。つまり、アイスクリームの売上 〜 気温、天気、アイスクリームの価格といった関係が想定できます。この予測においてもっとも単純なモデル式としては、この3つの要素のうち1つだけを使い、アイスクリームの売上 〜 気温といった関係を考え、線形モデルを考えるものです。そして気温は連続型の確率変数であり、どのような確率分布に従うかを考えると正規分布に従うとしてもよいでしょう。以上からモデル式として、アイスクリームの売上 〜 N(β0 + β1×気温, σ^2)が構築できました。あとは、データからパラメタの推定を行い実際の予測に役立てるようにします。

統計モデリングの過程でもっとも単純なものを考えました。より複雑なものを考えたいときにはどうしたらよいのでしょうか。線形モデルは仮定したまま、モデルの構造をかえたいときには、説明変数をかえることやデータの従う確率分布をかえることが考えられます。前者では上の例でいう気温をアイスクリームの価格にかえることです。また後者では、気温の従う確率分布を正規分布から、よりその確率変数が適合するであろう他の確率分布にかえることです。気温は正規分布がもっとも妥当に思えます。例えば、アイスクリームの売上 〜 アイスクリームの価格としてみます。価格は対数正規分布を仮定するように変更することはできます。こういったモデル構築について一般化し、確率分布の選択や従属変数への適合性を考慮した変換を加えるといったモデル構築が一般化線形モデルの考えにつながります。