2011年10月13日木曜日

ビッグ・データの可能性 -『科学の「第4のパラダイム」』(HBR11月号)より-

以前、マーケティングリサーチの新しい潮流について扱った記事を紹介するエントリーを書きましたが、その中で言及されている変化の中で一番大きいと言われていたのが「ビッグ・データ」です。以前の繰り返しになりますが、ビッグ・データとは、クレジットカード利用情報、POSデータ、会員カード情報、Webのアクセス情報等、実生活やweb上にあるあらゆる大規模な情報を総称する文字通り「大きなデータ」のこと。

これ、マーケティングやテックスタートアップだけに関係する話ではなく、よりアカデミックな、あるいは社会的な意味でも重要な潮流のようです。確かに考えてみれば公的な所にこそ未活用の貴重なデータがごろごろありそう。

最新のハーバード・ビジネス・レビュー11月号にもこのビッグ・データの時代到来に言及した、『科学の「第4のパラダイム」』という論文が掲載されていました。

この論文の中で、ビッグ・データを扱う手法は、「データ集約型科学(data-intensive science)」と呼ばれ、これまでの科学的探究のアプローチとは異なるものであると書かれています。論文の中で、これまでの科学的探究のパラダイムの遷移は下記のように記載されています。
1.実験
古代ギリシャと中国で始まる。観察された結果を、超自然原因ではなく自然原因によって説明しようとした。

2.理論
17世紀になると、アイザック・ニュートンをはじめとする科学者たちが、新たな現象の予測を試み、実験によって仮説を検証しようとした。

3.計算とシミュレーション
20世紀後半に高性能コンピュータが登場すると、連立方程式の数値的な解を大規模かつ緻密に計算することが可能になった。その結果、科学者たちは気候モデリングや銀河の形成など、実験や理論では足を踏み入れることのできない領域を探求できるようになった。

4.データ・マイニング
科学者たちは、より強力なコンピュータを利用することにより、データを出発点として莫大なデータベースから関係性をマイニングするようプログラムに命令する。つまり、コンピュータがデータを調査することによって規則を発見する。

この「4.データ・マイニング」が、データ集約型科学であり、ビッグ・データを取り扱う方法であるということです。既存の枠組みや規則性の中でデータを分析したりシミュレーションをしたりするこれまでの方法論に加えて、これまで蓄積されてきた山ほどのデータが折角あるのだから、それを全て取り込んで逆に規則性を発見・創造してしまおうという取り組みです。

このビッグ・データを用いたデータ・マイニングの事例はあらゆる分野で進められているようです。下記は上記論文に記載のあった一例。

・患者が再入院する可能性を予測するシステム
患者の病歴や診断結果、生活状況といったデータを蓄積し規則性を解析。新規患者のデータプロファイルを入力すれば患者の再入院の可能性の確認や改善プログラムを設計が可能に。

・Googleの「インフル・トレンド」インフルエンザ関連のインターネット検索の集計データを追跡し、一定の地域でインフルエンザがどの程度流行しているのかを推定するプログラム。パンデミック(複数の国や地域にわたる流行)の早期発見や予測につなげる。

・Googleの「アース・エンジン」
人工衛星による画像や分析を利用して、気候変動の主な原因の一つとなっている森林破壊を追跡。

他にも、ゲノム分析によるオーダーメイド医療の開発もその類でしょう。

こういったところの分析技術が商用として使えるようになれば、また新たな機会が生まれてきそうな気がしますね。自社製品やサービスについての購買情報やユーザー情報の分析は当然のことながら、目の付け所によってはこれまで活用できていなかった情報が掘り起こされたり、情報の集め方や切り口が整備されていなかったが故に見逃されていた領域が出てきそうな気もします。

最後に「ビッグ・データ」に関する論文をご紹介して終わります。どうも「ビッグ・データ」というのは2011年に入ってからマッキンゼーが言い出した言葉のようなのですが、そのマッキンゼーから出ている論文です。ボリュームがハンパなく、相当な気合がいるため、まだ読めてはおりません。。

紹介ブログ:Big data:The next frontier for innovation,competition,and productivity
論文サマリ(PDF)
論文全文(PDF)

0 件のコメント:

コメントを投稿