少しの論理的思考で人生を豊かにする。

ドイツの研究者のブログ。ライフハック的なことだったり、仮想通貨に関してだったり、機械学習だったり。雑多なことを書き連ねます。

統計と機械学習の共通点ってなに?

今日は統計と機械学習の共通点についてです。

f:id:masa_crypto:20180909072321p:plain

 

要点

統計と機械学習で解析できるデータや、やる作業はほとんど同じ。

だからこそ、モデル化する目的をしっかり確認。自分の考えの妥当性を検証したいなら統計、とりあえずデータ漁りしたいなら機械学習。

 

 

 

masa-crypto.hatenablog.com

 

 

前回は統計と機械学習の違いについて。元々の考え方の出発点が根本的に違うんだよ、ということでした。 とはいえ、同じデータを同じように解析できちゃうわけです。実際のところ。

 

 

 

例えば、体脂肪率をモデル化したい、体脂肪率の高い低いを説明するのに大事な要因を探りたいといった場合。各個人の体脂肪率を計って、その他に考えうる関係しそうな要因をいくつも用意するわけです(例:年収・スポーツ頻度・朝ごはんはパン派かお米派か・飲み会頻度・親の体脂肪率、とか。適当ですが)。

 

で、結局は統計も機械学習も、

1)集めたデータをエクセルシートなんかにまとめる

2)何らかの変数が目的変数(体脂肪率)と関係してるか確認のためにモデル化

3)モデル化した上でどの変数が強い説明力を持つか確認する

4)モデルがそれなりに妥当かどうか検証する(関連:説明力)

 

というワークフローは全く同じです。どっちも同じデータを使ってパターンを見るわけだから同じっちゃ―同じわけです。

 

だからこそ、統計と機械学習のやる作業が似ているからこそ、そのモデル化したい目的はなんなの?をしっかり自分に問う必要があるのです。

 

そこで前回書いた「違いとは何ぞや」を思い出してほしいのです。

説明したいの?予測したいの?

自分の考えた関係性を検証したいの?とりあえずデータ全部使って眺めたいの?

ここらへんを区別しとくと、どっちを使うかは明確になります。

 

実際、データ解析の依頼とか受けた際に、「これを機械学習でどうこうしてほしいんだけど・・」と言われても、相手の目的次第で統計手法をオススメしたりします。とはいえ、相談してくる以上、自分で何したらよいのかようわからん、という場合が多いので、色々話して、相手が仮説をもっていてそれを検証するのが目的かどうか(それなら統計で良い)というのを明らかにしていきます。「機械学習ってファンシーでマジカルなんだろ?やっちゃってよ!」みたいな輩が相談しにきたりした場合は、そもそも統計と機械学習の違いの話とか聞く耳持たない場合もあるので、そんな時はとりあえずもはや統計と機械学習どっちも適用して結果を比較したりもします。

 

 

・・とはいえ、最近は機械学習と統計、ちょっと境界線があいまいになってきてる部分もあったりしてですね。なんかお互いの分野の一部の人たちが少し歩み寄り始めたって感じの展開が10年前くらいから出てき始めてます(そこらへんも近日中に書きたいです)。

 

あと、機械学習って「データが大きい時に使うんじゃないの?」というご質問も受けたりして、でも実務だと小さいデータでも使うべきところもあるのよ、というのも近日中に書きます。