2012年4月2日月曜日

クロスバリデーションとモデル選択

数あるモデルの中で,どのモデルが現実に最も近いのかを決定することや,モデルに適切なパラメータ数を決めることは重要である.
 AICやMDLといった方法はいわゆるモデル選択と呼ばれる方法で,対数尤度とパラメータの数からモデルの適切さを評価するものである.
 一方で,クロスバリデーションによる方法もある.クロスバリデーションでは,サンプルを訓練用とテスト用に分ける.分け方は,サンプルを5等分した後,4つを訓練用,1つをテスト用にするのが常套手段である.5等分すれば,訓練用とテスト用のペアが5つ出来上がるので,それらでテストの対数尤度を計算し,その平均をとれば,それがそのモデルでの対数尤度ということになるわけである.
 では,どちらで評価すればいいのだろうか.サンプル数が少ない場合は,モデル選択の方法よりもクロスバリデーションの方が良いらしい.

参考文献: 杉山将「統計的機械学習」


0 件のコメント:

コメントを投稿