データサイエンス部のお仕事~データのもつ可能性を最大限に引き出す

初めまして、テックドクターでデータサイエンス部を統括している深見です。

本エントリでは、私たちデータサイエンス部のメンバーが日々どんなデータをどのように分析しているのかをご紹介します。

24時間365日の活動を測るウェアラブルデータ

テックドクターは、ウェアラブルバイスのデータを分析することで、医療現場で活用されるデジタルバイオマーカーの開発をめざしています。

※デジタルバイオマーカー……デジタルデバイスで測定した『日常データ』をもとにした、病気の早期発見や治療につながる客観的指標(前回記事参照

これまで医療現場で扱われるデータは、検査や健康診断など、病院に来院したときにだけ計測される一時点のデータでした。これに対しウェアラブルデータは、その人の24時間365日の活動を継続的に測定したデータです。この性質のちがいにより、ウェアラブルデータは「これまでわかっていなかった、病気と人の行動の関係」を明らかにする可能性を秘めているのです。

データサイエンス部ではそうしたウェアラブルデータのもつ可能性を最大限に引き出すため、その加工方法や分析手法を日々模索しています。

私が使用しているウェアラブルバイス。普段からデータ取得ができるように、左右の腕に別のデバイスを2個付けしています(ブログ用の演出ではありません!)

扱っているデータ・分析事例

私たちが計測に使っているウェアラブル端末には、みなさんが使用している一般的なスマートウォッチも含まれます。それらは睡眠・脈拍・活動量に関するデータを収集することができます。

たとえば、睡眠の質は自分ではわかりにくいものですが、収集した睡眠データを使えば計測できます。同じように、日頃の睡眠量や生活の規則正しさを定量的に知ることもできます。

いっぽう活動量のデータでは歩数を分単位で計測できるため、運動不足や運動習慣の有無などが可視化されます。

こういった行動のデータにくわえて、脈拍データからは心臓の拍動を通して、自律神経の動きを評価できると言われています。

さらにそれらを組み合わせることによって、睡眠中/運動中の脈拍数など、生活シーンを念頭においた分析ができるようになります。
下の図は、睡眠・脈拍・活動量(歩数)のデータを可視化した例です。

 

脈拍数のグラフに睡眠や活動量の状況を重ねたもの

こうして単純にグラフにしただけでも、なかなか興味深いものです。
しかし私たちは、データサイエンスの力を使って、このデータからさらに多くのことを知ろうとしています。わかりやすい例を2点ほどご紹介しましょう。

分析事例1.長期変動が見えてくる

テックドクターには創業間もないころからウェアラブル端末を着けつづけているメンバー、Mさん(男性)がおり、数年単位のデータが揃っているため絶好の解析対象となっています。

彼の数年にわたる脈拍データを解析した結果が下の図です。

測定した脈拍データをもとに、心拍変動という数値を算出し、STL分解したもの

STL分解……時系列データを季節成分、トレンド成分、残差成分に分ける分析手法

トレンドのグラフに注目してほしいのですが、時間の経過とともに数値が減少しています。これはMさんの身体が年齢を重ねていることを表しています。

この心拍変動は年齢とともに減少することが論文で報告されていますが、それは多数の被験者から統計的に導かれたものです。一人の人間の数値をこれだけ細かく、長期に可視化した例は珍しいのではないでしょうか。 

分析事例2.飲酒と脈拍

お酒を飲むと脈拍が上昇すると感じる方は多いと思います。ウェアラブルからの脈拍データを見ても、そのようすは明らかです。

この現象は飲酒習慣を定量化するには非常に役立つのですが、ときに困ることもあります。たとえば病気と脈拍との関連を解析したいとき、脈拍上昇の要因が病気のせいなのか飲酒のせいなのか判別がつかず、ノイズになるのです。

テックドクター社では、収集した飲酒日のデータと脈拍データを分析することで、飲酒判定モデルを構築しました。このモデルを使用すると、脈拍データのみをもとに飲酒日を推定することができます。

ピンクのハイライトが脈拍データから推定した飲酒日の予測。丸が実際の飲酒量

飲酒日が見事に推定されている様子がわかるでしょうか。このモデルは、先述した分析ノイズを除去するために役立てることができます。

どんな人がいるの? メンバーのバックグラウンドはさまざま

データサイエンス部には現在5人のメンバーがいます。

一貫して分析を経験してきたメンバーはむしろ少数派で、さまざまなバックグラウンドを持ちながら、その経験値をそれぞれの分析に活かしています。実はウェアラブルデータ自体がまだまだ新しいデータのため、分析経験がある人は世の中にほとんどいません。そのため全員テックドクターに入社後に初めて実分析を経験しています。

ふだんの業務では、毎日の朝会で業務の進捗確認や困りごとの相談を行っています。日々メンバー間でフレッシュな情報を共有しつつ、他のメンバーの分析方法を参考にしたりアドバイスをもらったりして、相互に助け合って業務をこなしています。

また定例MTGや個別案件の相談などは、一元化したりなるべくマネージャが受けることにして、メンバーにはなるべく多くの時間を分析にあててもらっています。

例として、私ともう一人のメンバーについて、そのバックグラウンドと一日の過ごし方をご紹介します。

👤マネージャ(私、入社3年以上、データ分析歴10年以上)

バックグラウンド

  • 計算理工学専攻卒
  • アンケートデータ分析
  • 事業開発(M&A)
  • Q&Aデータのテキスト分析
  • 位置情報分析
  • ウェブ広告データ分析
  • imp/click予測モデル

ある一日のスケジュール

時刻 内容
6:30 出社
  タスク整理・雑務
9:00 朝会
  分析定例
12:00 昼食
13:00 データ整理
  案件相談
  1on1
  定例会議
  全社会議
18:30 退社

私の仕事デスクです。分割キーボードに興味のある方大歓迎!笑

👤フレッシュメンバー(入社8ヶ月目)

バックグラウンド

ある一日のスケジュール

時刻 内容
8:00 出社
  雑務
9:00 朝会
  分析
12:00 昼食
13:00 分析
17:00 家事(業務外)
20:00 分析
21:00 終業

 

データの可能性を信じ、価値を引き出せる人と仕事がしたい

テックドクター社のデータサイエンス部では、技術面のスキルだけでなく、ウェアラブルデータに興味を持ち、人のために何かをしたいという思いを持った方々とともに働きたいと考えています。
具体的には、こんな人です。

データを見る/集める/分析することが好き

データには無限の可能性があり、どういった人がどういった関心を持って分析するかで結果が大きく変わってくるものです。分析要件や指示をこなすだけではなく、データの可能性を信じて、その価値を引き出せるようなマインドを重視しています。

ウェアラブルデータはまだまだ顧客でも理解が追いついていない面があります。データを見ている最中にふと思いついた分析内容が大いに評価される、といったことも多々あるのです。

ヘルステックへの興味・関心がある

ヘルステックの領域では、病気一つ一つに膨大なドメイン知識が存在しています。それらの中には解明が進んでいる病気もあれば、精神疾患のようにまだまだ未知の部分が残っている病気もあります。そういったドメイン知識を貪欲に吸収することができると、データ分析の精度・信頼度が向上していきます。

地道な努力ができる/一つ一つのデータを丁寧に根気強く確認することができる

データ分析をしていると、機械学習モデルの構築のような花形な業務よりも、手前のデータクレンジングに時間をとられることが多いです。弊社も例外ではなく、とりわけウェアラブルデータという24時間365日、いついかなる状況かに関わらず採取されたデータから結果を導くには、ことさら地味な作業が重要です。

これまでの分析をふりかえっても、きちんと医師や専門家の意見を聞き、細かなノイズを除去する作業を1年近くに渡って繰り返した結果、高精度な分類モデルの構築に成功する、といった例も多いです。

データを代表値として扱わず、個々の数値の意味を追求できる

分析作業を言われたことをこなす業務としてとらえてしまうと、検定で統計的な差異が出た/出なかった、機械学習モデルの精度が良かった/悪かった、で終わってしまいがちです。

しかしながら、うまくいかなかった時はもちろん、うまくいった時でも、なぜうまくいったのか、偶然ではなく汎用的な結果となっているのかを追求する姿勢はとても大事です。部内では、数百人規模のデータが対象であっても、分析を重ねていくうちに気がついたら一人一人のデータを細かく確認していたという例がよくありますし、そういった姿勢が重要だと考えています。

 

以上です。
このエントリを読んで、少しでもテックドクターに興味を持っていただけたら、そして困っている人のためにデータ分析をしたいと思っていただけたら、嬉しいです。

次回のデータサイエンス部の記事では、具体的な分析手法や、事例の紹介をしていきたいと思っています!

 

書いた人:深見