読者です 読者をやめる 読者になる 読者になる

ビッグデータとかについて思うこと

 あっ, どーも僕です.

 母がわたしにスライドの添削をお願いするメールに, おじさんが事故ったことや, おじいちゃんが倒れたことを一緒に載せてきました.


不毛な言い合い

 最近, 「ビッグデータすごいよね!!!」みたいなエントリーだったり, つぶやきがある, すぐに「統計的仮説検定は標本から母数を知る道具だろwww全数調査とか出直して来いよwwww」みないな言い合いが始まっていて本当に不毛ですよね.
 わたしが扱うデータは大きくて数GBですので, ビッグデータといわれるようなT~PBのようなデータはみたこともないのですが, たぶんだれもビッグデータを使用して仮説検定を使用とは思っていないですよね. みんな勘違いしていないですかね.
 統計学はいろいろな分野に応用されていますので, 違う分野の方とは扱っているデータが異なるしやりたいことも違うので齟齬が生まれるのを気をつけた方がいいと思うのですが.


ビッグデータでしたいこと?

 あまり勉強したことないので恐らくですが, ビッグデータでは非定常な情報や, 再現が難しいような情報を得たいのでないのでしょうか?統計学的にいえばエルゴード性が成り立つかどうかかな. あと追いで情報を得ていたのでは解析は良い情報が得られず, そのときそのときに得られるデータを最大限に使用しましょうようって話が気がする. また, エージェントを使う数値的な実験しかできないようなものであったりに, ビッグデータが使用されているのではないかと思ってる.
 といっても, ビッグデータのビのの字もでない分野なので, イメージでしかないのですが....


当たり前に感じていることを立証できるのは重要

 しばしば, 「ビッグデータすごい」→「統計学は全数調査を避ける学問」→「でも, 結局当たり前の結論しかうまないよね」というビッグデータから始まった議論が統計学批判まで繋がることがあります. 要点は「お金をかけても直感的にわかっている結果しかでない」ということです. 
 確かに, 当たり前の結果しかでないのであるならば面白みや有用性は少ないかもしれません. ですが, 直感的に当たり前とわかっていることが学問的に当たり前と限らず, 学問的に立証されるのは重要です. なぜなら, 往々にして直感と数字はズレるものですし, 当たり前のことがなぜ当たり前なのかを示せれば, 次の人が同じことをせずに済むからです.
 企業は別に研究がしたいわけでないということが考えられますが, 企業がコンサルに解析をお願いして良い結果がでないのは, 最初から解析の目的が定まっておらず「なんとかんく」依頼をしたんじゃないのかと思います.


最後に

 ちょっと話がずれますが, よく統計学を学ぶにあたり東大出版会統計学(赤)が紹介されますが, みなさんは本気であの本をオススメしているのでしょうか?わたしも読みましたが, 数式フォントが見づらく読むのがしんどかった気がします. ただ, 統計学(青)はオススメです. 統計学(赤)と同じレベルでオススメなのは岩波の確率統計です.

確率・統計 (理工系の数学入門コース 7)

確率・統計 (理工系の数学入門コース 7)