2012年4月2日月曜日

クロスバリデーションとモデル選択

数あるモデルの中で,どのモデルが現実に最も近いのかを決定することや,モデルに適切なパラメータ数を決めることは重要である.
 AICやMDLといった方法はいわゆるモデル選択と呼ばれる方法で,対数尤度とパラメータの数からモデルの適切さを評価するものである.
 一方で,クロスバリデーションによる方法もある.クロスバリデーションでは,サンプルを訓練用とテスト用に分ける.分け方は,サンプルを5等分した後,4つを訓練用,1つをテスト用にするのが常套手段である.5等分すれば,訓練用とテスト用のペアが5つ出来上がるので,それらでテストの対数尤度を計算し,その平均をとれば,それがそのモデルでの対数尤度ということになるわけである.
 では,どちらで評価すればいいのだろうか.サンプル数が少ない場合は,モデル選択の方法よりもクロスバリデーションの方が良いらしい.

参考文献: 杉山将「統計的機械学習」


「統計的機械学習」を読みながら

確率変数とパラメータの表記の違いについて考える.
本に依っては,この二つをごっちゃにする場合もあるんだけれど,この本では一応パラメータのときは,セミコロンで区切って書くような感じになっている.例えば,ガウシアンなら$p(x;\mu,\sigma^2)$といった感じに.PRMLだったら$p(x|\mu,\sigma^2)$ってなってるところだけどね.正直,この違いはよく分からない.
ベイズ的な感じならば,事前分布にハイパーパラメータがあって,これは確率変数ではないとするならば,この部分だけハイパーパラメータとして書いて,それ以外は,条件付きのように書くというべきなのだろうか.
しかし,頻度主義ならどうするか.それが問題である.

2012年4月1日日曜日

確率密度関数一覧

僕の特技は,確率密度関数の暗記です(嘘)
暗記はこれからしたいと思っているところだから,暗記する分布一覧を下にのせておこう.これ,語呂合わせで覚えるべきなのか? そういう覚え方が既にあったりとか.すいへーりーべーぼくのふねってね.
  1. 正規分布 $ P(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\Big\{-\frac{(x-\mu)^2}{2\sigma^2} \Big\} $ 
    1. $\mu$は平均
    2. $\sigma^2$は分散
  2. 半正規分布 $P(x|\sigma) = \frac{1}{\sigma}\sqrt{\frac{2}{\pi}} \exp\Big(-\frac{x^2}{2\sigma^2}\Big)$
  3. 対数正規分布 $P(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}x}\exp\Big\{-\frac{(\ln x - \mu)^2}{2\sigma^2} \Big\}$
  4. コーシー分布 $P(x|\mu,\theta) = \frac{1}{\pi}\Big\{\frac{\theta}{\theta^2+(x-\mu)^2} \Big\}$
  5. レヴィ分布 $P(x|\mu,\theta) = \sqrt{\frac{\theta}{2\pi}}(x-\mu)^{-\frac{3}{2}}\exp\Big\{-\frac{\theta}{2(x-\mu)}\Big\}$
  6. 指数分布 $P(x|\theta) = \frac{1}{\theta}\exp\Big(-\frac{x}{\theta}\Big)$
  7. ラプラス分布 $P(x|\mu,\theta)=\frac{1}{2\theta}\exp\Big(-\frac{|x-\mu|}{\theta}\Big)$
  8. レイリー分布 $P(x|\sigma)=\frac{x}{\sigma^2}\exp\Big(-\frac{x^2}{2\sigma^2}\Big)$
  9. ワイブル分布 $P(x|\gamma,\eta)=\frac{\gamma}{\eta}\Big(\frac{x}{\eta}\Big)^{\gamma-1}\exp\Big\{-\big(\frac{x}{\eta}\big)^\gamma\Big\}$
  10. ガンベル分布 $P(x|\mu,\eta)=\frac{1}{\eta}\exp\Big(-\frac{x-\mu}{\eta}\Big)\exp\Big\{-\exp\Big(\frac{x-\mu}{\eta}\Big)\Big\}$
  11. ガンマ分布 $P(x|\alpha,\beta)=\frac{\beta^{-\alpha}x^{\alpha-1}e^{-x/\beta}}{\Gamma(\alpha)}$
    1. $\Gamma(\alpha)=\int ...$
  12. ベータ分布 $P(x|\alpha,\beta)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}$
    1. $B(\alpha,\beta)$はベータ関数
  13. ディリクレ分布 $P(\vec{x}|\vec{\alpha})=\frac{1}{Z(\vec{\alpha})}\prod_{i=1}^K x_i^{\alpha_i-1}$
  14. べき関数分布 $P(x|\gamma,a,b)=\frac{\gamma(x-a)^{\gamma-1}}{(b-a)^\gamma}$
  15. 指数べき分布 $P(x|\gamma,\mu,\eta)=\frac{1}{2\eta\gamma^{1/\gamma}\big(1+\frac{1}{\gamma}\big)}\exp\Big(-\frac{|x-\mu|^\gamma}{\gamma\eta^\gamma}\Big)$
  16. アーラン分布 $P(x|r,\theta)=\frac{\theta^{-r}x^{r-1}e^{-x/\theta}}{(r-1)!}$
  17. $\chi^2$分布 $P(x|r)=\frac{x^{\frac{r}{2}-1}e^{-x/2}}{2^\frac{r}{2}\Gamma\big(\frac{r}{2}\big)}$
  18. $\chi$分布 $P(x|r)=\frac{x^{r-1}e^{-x^2/2}}{2^{\frac{r}{2}-1}\Gamma(r/2)}$
  19. F分布 $P(x|r_1,r_2)=\frac{1}{B(r_1/2,r_2/2)}\cdot\frac{(r_1/r_2)^{r_1/2}x^{\frac{r_1}{2}-1}}{\big(1+\frac{r_1}{r_2}x\big)^\frac{r_1+r_2}{2}}$
    1. $B(r_1/2,r_2/2)$はベータ関数
  20. t分布 $P(x|r)=\frac{\Gamma\big(\frac{r+1}{2}\big)}{\sqrt{\pi r}\Gamma\big(\frac{r}{2}\big)\Big(1+\frac{x^2}{r}\Big)^\frac{r+1}{2}}$
  21. 逆ガウス分布 $P(x|\mu,\lambda)=\Big(\frac{\lambda}{2\pi x^3}\Big)^\frac{1}{2}\exp\Big\{-\frac{\lambda(x-\mu)^2}{2\mu^2 x}\Big\}$
  22. 三角分布
  23. パレート分布 $P(x|\alpha,\beta)=\frac{\alpha\beta^\alpha}{x^{\alpha+1}}$
  24. ロジスティック分布 $P(x|\mu,\theta)=\frac{1}{4\theta}\mathrm{sech}^2\big(\frac{x-\mu}{2\theta}\big) $
    1. $\mathrm{sech}$は双曲線正割関数で,$\mathrm{sech}(x)=\frac{2}{e^x+e^{-x}}$
  25. 双曲線正割分布 $P(x|\mu,\theta)=\frac{1}{2\theta}\mathrm{sech}\Big\{\frac{\pi(x-\mu)}{2\theta}\Big\}$
    1. $\mathrm{sech}$は双曲線正割関数で,$\mathrm{sech}(x)=\frac{2}{e^x+e^{-x}}$
今日はここまで.全部で46種類あったはずなので,それを全部書いてから,覚え方とか試行錯誤してみよう.

AICとBICとMDL どれにするか


このPDFは,AICの赤池先生がMDLとBICを相手にして,
MDLあるいはBICが,AICを超える根拠を持つと考えるのは迷信に過ぎないことを示し
ている,とても挑戦的な文書.
モデル選択規準って,それぞれ深い理由があって導出されたものかと思うが,数式だけ見ると,どれも小さな違いのように見える.数式上は,モデルの対数尤度をパラメータ数やサンプル数で正規化するといった感じに見えて,正規化の部分がちょっと違うという話に見える.
どの規準も使えるという状況だったら,どれを使うべきかというのが僕のちょっとした悩みだけれど,上のPDFはちょっと難しく客観的にどれを選べばいいかわからなかった.当然,このPDFの主張はAICが一番いいってことなんだけど.


2012年2月22日水曜日