LLMにおける臨床知識は、人間との相互作用に直接反映されるわけではない。
Clinical knowledge in LLMs does not translate to human interactions
April 26, 2025
著者: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
cs.AI
要旨
世界的な医療提供者は、一般市民に医療アドバイスを提供するために大規模言語モデル(LLM)の利用を模索している。LLMは現在、医師免許試験でほぼ完璧なスコアを達成しているが、これが必ずしも実世界での正確なパフォーマンスに直結するわけではない。我々は、1,298名の参加者を対象とした制御された研究において、LLMが一般市民が潜在的な病状を特定し、行動方針(処置)を選択するのを支援できるかどうかを、10の医療シナリオで検証した。参加者はランダムに、LLM(GPT-4o、Llama 3、Command R+)からの支援を受けるグループと、自分で選んだ情報源(対照群)を使用するグループに割り当てられた。単独でテストされた場合、LLMはシナリオを正確に完了し、平均で94.9%のケースで病状を正しく特定し、56.3%のケースで処置を正しく選択した。しかし、同じLLMを使用した参加者は、関連する病状を34.5%未満のケースでしか特定できず、処置を44.2%未満のケースでしか選択できず、いずれも対照群と同等かそれ以下の結果であった。我々は、医療アドバイスにおけるLLMの展開における課題として、ユーザーインタラクションを特定した。医療知識や模擬患者インタラクションの標準的なベンチマークは、人間の参加者で見つかった失敗を予測しない。今後の展開として、医療分野での公開展開前に、インタラクティブな能力を評価するための体系的な人間ユーザーテストを推奨する。
English
Global healthcare providers are exploring use of large language models (LLMs)
to provide medical advice to the public. LLMs now achieve nearly perfect scores
on medical licensing exams, but this does not necessarily translate to accurate
performance in real-world settings. We tested if LLMs can assist members of the
public in identifying underlying conditions and choosing a course of action
(disposition) in ten medical scenarios in a controlled study with 1,298
participants. Participants were randomly assigned to receive assistance from an
LLM (GPT-4o, Llama 3, Command R+) or a source of their choice (control). Tested
alone, LLMs complete the scenarios accurately, correctly identifying conditions
in 94.9% of cases and disposition in 56.3% on average. However, participants
using the same LLMs identified relevant conditions in less than 34.5% of cases
and disposition in less than 44.2%, both no better than the control group. We
identify user interactions as a challenge to the deployment of LLMs for medical
advice. Standard benchmarks for medical knowledge and simulated patient
interactions do not predict the failures we find with human participants.
Moving forward, we recommend systematic human user testing to evaluate
interactive capabilities prior to public deployments in healthcare.Summary
AI-Generated Summary