スーパードラゴンスロットマシン

注目の研究テーマ

【統計学】データサイエンスに必須! 数字を通して、ビジネスや社会に必要なデータが見えてくる

統計はデータを集めて分析する学問です。独立した学問分野ではありますが、医学、薬学、経済学、心理学、あるいは物理学や工学など、文系から理系まで幅広い分野の研究でも用いられる基礎的な学問でもあります。また数理、データサイエンス、AIを学ぶときには、統計は必須のスキルとなります。今回は「統計学」について解説します。

「データを読む」とは簡単なことではない。「統計学」の重要さを理解しよう

「統計学」とは、文字通り「統計」に関する学問です。統計とは、何らかの調査を行い、そのデータを数字で把握すること。

例えば、4年に一度行われる国勢調査。日本にどれだけの人間が住んでいるのか、年齢、性別、居住地域、世帯数、職業、収入などの割合はどうなっているのか、高齢者世帯、母子・父子家庭はどれくらいあるのかなどを調べます。そしてそのデータは、少子化対策、福祉、地域振興などのさまざまな施策に役立てられています。

数字を使って分析するには「平均」「中央値」「最頻値」「偏差」「分散」「グラフ化」などの手法が用いられます。より専門的な手法である「クロス集計」「回帰分析(各要素の関連性、影響を見る)」「クラスター分析(グループに分けて比較する)」なども使われます。

それらの手法の中には、高校までの算数や数学で習った手法もあるのではないでしょうか。皆さんのなかには「もう習ったから、大学に行ってまで『平均』や『偏差』などを学ぶ必要はないよ」と思っているかたもいるかもしれません。

しかし統計とは非常に奥の深い学問なのです。

ワクチン、新薬開発を例に考える統計の重要性

統計を駆使することで「見えないこと」が見えてくる場合があります。例えば、新型コロナウイルス対策として開発されたワクチン。

新しく開発されたワクチンについて、皆さんも

「ウイルスに感染したときに重症化しにくくなるから、打ったほうがいい」
「副反応が強く危険なものだから、打たないほうがいい」

と、両方の意見を耳にしたことがあると思います。

さて、ふたつの意見のうち、正しいのはどちらでしょうか。

そもそもワクチンの効果を確認するのは簡単なことではありません。なぜかといえば、人間の体は一人ひとり違うものであり、ワクチンが効きやすい人もいれば効きにくい人もいるからです。

では何をもってワクチンの効果を判断すればいいのでしょうか。そこで役立つのが統計学なのです。

一人ひとりを見ているだけでは全体がわからない

新しいワクチンや新薬の効果、安全性を調べるには「治験」を行います。これは、効果や安全性などを確かめるための試験です。

ワクチンや新薬の開発はいくつかの段階を踏みます。最初は試験管などの実験で効果を見て、次の段階で動物実験を行います。そこで「効果が期待できる」と見られたら、人間に対して試験を行います。この人間を対象にした臨床試験が「治験」です。

この治験では、本物のワクチン、薬の他にプラセボを用いて比較することがあります。プラセボとは、まったく効果のない、無害なニセの薬のこと。そして治験の対象者を「本物を使うグループ」「プラセボを使うグループ」に分けて、効果や副反応などを比較するのです。その際、先入観を持たないように、治験対象者や医師には「誰に本物を使ったのか」を知らせていません。このようなやり方を「二重盲検試験」と呼びます。

なぜ、このような面倒な方法をとるのでしょうか。それは治験対象者の一人ひとりを見ていても、ワクチンや薬の効果を判断するのは難しいからです。

<自然治癒力の問題>
人間は自然治癒力を持っており、ワクチンや薬の力を借りなくても治ることがあります。となると「ワクチンや薬が効いたのか、自然に治ったのか」がわからなくなります。

<プラセボ効果の問題>
人間の体は不思議なもので、効き目がないはずのプラセボを接種したのに「本物」と思い込んだことで、本当に効果が出る場合があります。不思議なことに、プラセボなのに副反応が起こるケースさえあるほどです。

こうなると、病気の症状が緩和したとしても「ワクチンや薬の効果なのか」「自然治癒力で回復したのか」「プラセボ効果で治ったのか」を判断することは困難です。

統計の力で効果を確かめる

ではどうすれば正しい比較ができるのでしょうか。

まず本物のグループとプラセボのグループの属性をそろえます。例えば、「本物のグループに高齢者が多い」「プラセボのグループは若者が多い」とグループ属性が違っていたら、比較に意味がなくなります。そこで年齢や性別などをそろえます。

そして、どのような調査項目を立ててどの程度の違いが生じたら、「効果あり」と判断するのかを決めます。

  • 本物のグループでは「100人中51人」に効果あり
  • プラセボグループでは「100人中50人」に効果あり

という違いであれば、誤差と見ていいでしょう。

しかし、

  • 本物のグループでは「100人中80人」に効果あり
  • プラセボグループでは「100人中30人」に効果あり

となれば、大いに期待できます。
(実際の治験はこのような大ざっぱではなく、項目ごとに緻密に分析します)

このように調査方法から結果の分析までを見通したプランを作って進められます。このとき、統計学の視点を持って調査、分析を行うからこそ、「一人ひとりを見ていてはわからない、全体としての傾向」が見えてくるのです。

ところでワクチンについて、打ったほうがいいのか打たないほうがいいのか、人によって意見が違います。いろいろな意見を目にして迷うこともあるでしょうが、必ず「統計の手法で裏打ちされたものなのか」を確認して判断することが重要です。

データサイエンス、AIに不可欠な統計のスキル

統計学の用途は、国勢調査のような社会学、ワクチンの例で挙げたような医学、薬学だけではありません。経済学、心理学などの文系分野、物理学や工学などの理系分野でも、統計学は利用されています。

特に最近はデータサイエンスや人工知能(AI)活用に欠かせないスキルとしても重要視されています。データサイエンスとは、数学や統計、AI、ビッグデータ、数理モデルなどを使ってデータを分析し、そこから価値を見いだすための学問です。

特にこれからの時代にそのスキルは重要とされ、すべての大学生で「数理・データサイエンス・AI教育」が必修とされています。

新しい時代のマーケティングに統計学

マーケティングを例に考えてみましょう。今ビジネスの世界ではスピードアップ、経営判断の迅速化がひとつのテーマとされています。そのための手法のひとつが「データドリブンマーケティング」、つまり「データを駆使して判断するマーケティング」です。

データをマーケティングに活用するとはどういうことでしょうか。

昔の「大量生産大量消費」の時代は、ひとつの商品を大量に生産して大量に販売していました。そういう時代は「より多くの人に好まれる商品」を作って「より多くの人にアピールする」ことが重要でした。しかし個人の好みが多様化した現在、多種多様なニーズ、時代の変化に応えなくてはいけません。

そうなると一人ひとりのニーズを知ったうえで、マーケティング戦略を練る必要があります。私たちは、スマートフォンやインターネット、SNSなどを使って、新しい商品の情報を調べたり購入したりしていますが、そうすると行動履歴が残されます。また店舗に設置したカメラに写る消費者の振る舞いもデータとして利用できます。それらユーザーの行動や商品ごとの売り上げなどを分析して、客観的なデータとしてマーケティングに活用するわけです。

そのとき「目的あったデータを適切に集めているか、分析しやすい形で蓄積しているか、適切な手法を使って正しく分析できているか」といったポイントが重要になりますが、その際には統計学のノウハウが必要となります。

AIが学習するためのデータを正しく用意する

AIにはさまざまな種類がありますが、現在増えているのは機械学習です。これはAIに膨大なデータを読み込ませてAI自身に学習させる方法です。このとき重要なのは、学習に用いるデータとしてどのようなものを用意するかです。適切な学習データを用意できないと、AIは間違った学習をしてしまうからです。

また、AIで何らかのデータを分析する際も、上のマーケティングの例で紹介したような統計学の知識を持ってデータを扱う必要があります。

「統計学」について学べる大学の学部、学科

統計そのものについて研究する場合は、理学部の「数学科」となるでしょう。一方、統計学を生かして他の領域で活用するとなると、情報工学、経済学部、経営学部、社会学部、心理学部、農学部、医学部、薬学部など多くの学部が挙げられます。また最近は、データサイエンス学部といった「データサイエンス」の名を掲げる学部、学科も増えてきました。そこでも統計学は学ぶことになります。