講義動画の提供

知識を習得するための講座は、
講義動画のオンデマンド配信形式となっております。
会員専用動画
会員限定の講義動画は、次のリンクからご利用ください。
(https://edu.platform-ex.jp/login)
参考動画:実務への応用事例のひとつとして、限定公開しております。
コラムの掲載

現役のデータサイエンティストによるコラムです。
会員様限定のコラムを閲覧したい方は、
こちらを参照してください。
試し読み
探索的データ解析への誘い~データサイエンス入門~
島津 秀康(株式会社フィンデクス技術顧問・英国ラフバラ大学)
探索的データ解析(EDA: Exploratory Data Analysis)は70年代にアメリカの統計学者テューキー (John Tukey)が提唱したデータから有益な情報を抽出する枠組みです.当時,進んでいたデータの扱いに対する過度な数学的精密化に警鐘を鳴らし,データから有用な情報を抽出するにはデータの可視化(Data visualisation)を通じた探偵仕事が不可欠だとしました.その後,彼の薫陶を受けた研究者らを中心に,今ではデータ解析の基本ツールとなっているRの前身,S (the system)がベル研究所で開発されました.後の90年代に「データサイエンス」を日本から提唱した柴田里程慶應義塾大学名誉教授がそのSの開発に参加していたのは偶然ではないでしょう.
もちろん,データ可視化の重要性を認めたのはEDAが初めてではありません.多くの先達も気づいていました. 事実,1つのグラフが大きく歴史を変えたこともあるのです.
日本でも「ランプの貴婦人」としてよく知られるナイチンゲール(Florence Nightingale)がクリミア戦争従軍時に野戦病院の衛生環境を改善し,死亡率を劇的に改善した話は有名です.実はそんな彼女は女性初の王立統計協会(The Royal Statistical Society)の会員でもあるのです.従軍時の経験をデータから裏付けるべく「バラ図」を用いて,当時の野戦病院での死因は戦傷より劣悪な衛生環境による病気にあることを示しました.1859年に報告されたバラ図(図1)からは死因の内訳が一目瞭然です.このようなインパクトある報告が引き金となって,陸軍病院の衛生環境改善改革を実現させ,近代的な看護体制の成立へ道筋をつけることにナイチンゲールは成功しました.
このバラ図は色のついた扇型が目を引きます.ここでナイチンゲールは注意深く,中心からの扇形の面積を死者数に対応させて図を描いています.つまり,死者数の平方根を半径として図を描いているのです.実際の数値は図には記載せず,必要最小限の情報を可視化しています.「赤色が戦傷による死で,水色の部分が病院の劣悪な衛生環境による病気が原因の防げた死である」とでも言われれば,そのインパクトは想像に難しくありません.

水色:病死,赤色:戦傷,黒色:その他(Science Museum in Londonにて).
このようにグラフの与えるインパクトは大切です.しかしインパクトのあるグラフが必ずしも十分な情報を提供するとは限らないことは認識しておく必要があります. 全く同じデータを現在ではおなじみの積み立て型の棒グラフ(図2)を使って表現してみましょう(ちなみに棒グラフが書物に登場し始めたのは1780年代といわれています).縦軸には死者数を,横軸には1854年4月から1856年3月までを取りました.

バラ図と棒グラフは面積が死者数に対応している点は同じです.しかし,棒グラフではさらにその長さも対応している点が違います.棒グラフでは隣接した月々の比較が棒の長さでできるのに対して,バラ図の場合は扇型の面積を比較する必要があります.例えば,棒グラフからは1855年1月には最多に達した3000人強の死者の内,9割に当たる2700人近くが病気で命を落としていたことが読み取れます.また 1855年の3月と4月で死者数がほぼ1/3に減少していることも明らかです.どれだけの人がバラ図からそのような情報を読み取れたでしょうか? それならばバラ図の半径を死者数の平方根ではなく死者数そのものにすればよいという意見もあるかもしれません.しかし,そうした場合,扇型の面積はどうなるでしょう. データ解析ではこのようにデータを極力そのままの姿で視覚化し,人間の直感に訴えかけながら次のデータ解析の一手を探る作業が鍵になります.これは視覚化による実データとの乖離を極力避けるという視点で,人目を引きやすいインパクトのある視覚化とはまた違った視点です.この辺りを意識しながら世の中のグラフを眺めるようになると,自然と自分の目的にあったデータの視覚化とは何かを考えられるようになってきます.これがデータ視覚化の第一歩です.
イギリスにおけるデータサイエンス教育
島津 秀康(株式会社フィンデクス技術顧問・英国ラフバラ大学)
近代統計学発展の歴史を自負するイギリスにおいて,データサイエンスはどのように高等教育(大学,大学院)で扱われているのでしょうか?大学院教育に焦点を当ててみていくことにしましょう.
イギリスの高等教育は国策の教育産業として留学生の受け入れに積極的です.特に英語で教育を行う国々の高等教育機関とは競合関係にあります.そのため,アメリカより波及したデータサイエンスの影響は,カリキュラム上に比較的早くあらわれました.データサイエンスに関連するコースの新設が目立ち始めたのは2016年頃からです.その当時,およそ30強の大学が学士コース,50あまりの大学が修士コースを提供するようになっていました(ちなみに,日本で初めてデータサイエンス学部が滋賀大学に設立されたのは2019年です).来年の2022年9月から始まる新年度には80を超える大学が学士及び修士コースを提供するとしています.歴史的に統計学科が多くあるイギリスでは,当初,データサイエンスコースは応用統計学にコンピュータサイエンスの要素を加えたもの,あるいは他分野と連携する形で構成されるものが多くありました.最近ではコンピュータサイエンス科目主導のコースも多くなっている印象を受けます.
一般にイギリスの修士課程は1年間で,学部のように授業を受けて単位を取る(研究要素の無い)コースが一般的です.一学期は・・・
~全文は,会員様向けサイトで公開しています~