第40回医療情報学会連合大会(JCMI2020) 報告記その１

自然言語処理と医療情報解析

仕事上でも私生活でも「AI」という単語を耳にすることが増えていないだろうか。AIは、既に利用できる形で手の届くところにあり、急速に発展する技術に押されて目まぐるしい速度で私達の仕事や生活に関わってくる。今のAI技術を知ることは近未来の自分の暮らしを覗き見するようなものと言えるだろう。医療分野とて例外ではない。

今回、医療情報学会連合大会に参加して得た「医療とAI」に関する知見を、「自然言語処理と医療情報解析」というテーマでまとめ、報告する。

―自然言語処理の医療応用

AIによる自然言語処理は、スマートデバイスに搭載される音声アシスタントや同時翻訳などの形で、既に我々の身近なものとなっている。また商業分野では、顧客データや販売実績などの膨大な情報をAIを利用して解析してマーケティングに活用することも行われている。医療分野においても、このようなビッグデータ解析は近年注目されている。これまでの臨床研究では、高いエビデンスを得るための研究デザインとしてランダム化比較試験（RCT）が最も重要視されていた。しかし、RCTでは実現困難或いは多大な労力を要するような研究領域では、リアルワールドデータ（RWD）を活用した研究が有用であるとの議論がなされる様になった。

こうしたビッグデータの例には、病院規模では電子カルテ内の診療録や各種サマリー、国内規模では各専門学会の纏める症例データベースやDPC等に登録される病名が挙げられる。

しかしながら、医療分野における自然言語処理にはまだ課題も多い。医学用語は専門性が高く、ICDに登録されている標準病名以外に、アルファベットによる略語や複数の用語を繋げた合成語がしばしば用いられ、更には日々新しい用語も登場する。言語解析の標準的な手法として、自然言語で書かれた文章を意味を持つ最小単位（形態素）に切り分け、それぞれの品詞や意味を解析する「形態素解析」があるが、上記の理由から医学用語に対する網羅的辞書の作成は特に日本語を扱う場合、困難であるとされてきた。

―医療専門語の正規化

これに対する解決策として、表現の異なる病名を標準病名に正規化する機械学習ツールを使用することが提案されている。Googleの開発したBERT(Bidirectional Encoder Representations for Transformers)をこれに応用した先行研究は海外にあるが、奈良先端科学技術大学の氏家らは、単語の出現頻度及び重みから類似度を計算するTF-IDF（Term Frequency / Inverse Document Frequency）の手法で正規化ツールの開発を試みている。西南女学院大学の相良氏は合成語の解析について、合成語を構成する要素のうち最も右側の要素から分類・意味を推測できる可能性を報告した。例えば標準病名に「下腿骨骨折」は登録されているが、「下腿骨折」は登録されていない。しかし「下腿（部位）/骨折（疾患）」とラベリングすることで、同じ種類の病名であると推測させることができる。同氏は、合成語約4500語の解析から、この「右側主要部の規則」が合成語の意味推測に有効であると報告している。

抽出された単語や固有の表現を予め定めたラベルに分類し、フリーテキストを可能な限り構造化する（エンティティ抽出）ことで、情報の二次利用が容易になることが期待できる。大阪大学の杉本らは、この手法で放射線レポートの構造化を試みた。同じ胸部CTという枠組みであれば、医療機関の枠を超えて利用できる可能性も報告している。但し腹部CTなど多部位のレポートに関しては、使用する単語＝形態素の違いから、適宜追加学習が必要なようである。

―診療補助への期待

自然言語処理は診療補助にも応用が期待できる。例えば風邪の患者を文書から判別する場合、「熱」「咳」という単語の組み合わせで抽出すると、「熱も咳もある」人と「熱はあるが咳はない」人を区別することはできないが、テキスト含意認識AIは単語のあとに続く「～がある」「～がない」といった表現を併せて認識することができる。東京医科歯科大学の今井らはこれを活用して、紹介状に含まれる患者主訴・医師の所見、および電子カルテ内の血液検査結果をデータ抽出し、機械学習による原発性免疫不全患者の判別モデルを作成することを試みた。結果、「好中球」「IgG」「CD3」の組み合わせで正解率80%のモデルが得られたことを報告している。宮崎大学の大原らは、入院歴のあるがん患者を対象として、電子カルテ内の患者属性、検査データ等から入院後に起こる重篤な合併症予測モデルを作成した。例えば敗血症の発症には、D-diner増加率、発症前の体温平均値、発症前日のHct値が寄与している可能性が示唆された。

―オンラインデータを活用した自然言語学習

先に述べたようなビッグデータ解析の一例としては、奈良先端科学技術大学の勘場らの行った、Yahoo!知恵袋に投稿されたがん患者の相談内容約7000件を解析した試みがある。ベースとする学習モデルによって精度は異なる結果となったが、同じYahoo!知恵袋の情報を学習データとしたモデルでは、がん患者の医療ニーズのTop10を約70％の正解率で抽出した。今後のユースケースとして、抗がん剤の副作用に関する悩みを抽出して安全性評価に繋げることや、「自覚症状が癌でないか心配」「癌に対する知識不足による不安」「医師に心配事や不安を言い出しにくい」などのカテゴリに分類された質問者を適切な専門家・専門医へとマッチングさせることを提案した。北海道大学の曹らは、中国最大のSNSであるWeiboにおいて1ヶ月間に投稿されたCOVID19関連の投稿全78万件から、前処理して残った約13万件の単語出現頻度を解析している。その結果、「診断」「症例」「新規患者数」「累積」など感染拡大状況についてと、「米国」「全世界」など海外の流行状況に国民の関心が集まっていたことがわかった。更にナイーブベイズ分類器による機械学習モデルを用いて、各投稿について感情極性値を見た結果も併せて報告している。

―総評

今回の学術集会に参加して、「自然言語処理」という分野の知見に初めて触れ、それがAI医療において重要な課題の一つであることを知った。最近ではCOVID-19についての各国の論文や研究データを、研究者や科学者が「新型コロナの症状は？」などの自然言語で検索できるサービスを、米Amazon Web Serviceが開始しており、医療分野でも特定の話題に絞れば自然言語処理AIは既に実用レベルのようである。

特に奈良先端科学技術大学や北海道大学から報告されたような、インターネット上の情報を解析する研究は、新しい疫学研究の一つとして興味深いと感じた。また東京医科歯科大学や宮崎大学が行ったように、医療情報から診断補助・予後予測を行うAIは将来的に有用であると考える。例えばアブレーションなどの治療後経過について、患者の「症状日記」から再発等の予後予測を行うAIを、アプリを通じて提供すること等も将来的には可能ではないかと考えた。

文責：岩越　響

ヘルステックイノベーション研究センター

第40回医療情報学会連合大会(JCMI2020) 報告記その１

自然言語処理と医療情報解析

ヘルステックイノベーション研究センター

​第40回医療情報学会連合大会(JCMI2020) 報告記 その１

自然言語処理と医療情報解析

ヘルステックイノベーション研究センター

第40回医療情報学会連合大会(JCMI2020) 報告記その１