仮想臨床環境における診断エージェントの進化
Evolving Diagnostic Agents in a Virtual Clinical Environment
October 28, 2025
著者: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
要旨
本論文では、大規模言語モデル(LLM)を強化学習により診断エージェントとして訓練するフレームワークを提案する。これにより、モデルはマルチターンの診断プロセスを管理し、適応的に検査を選択し、最終診断を確定することが可能となる。静的な症例要約で訓練された指示チューニングモデルとは異なり、本手法は対話的探索と結果に基づくフィードバックを通じて診断戦略を獲得する。我々の貢献は以下の4点である。(i) 電子健康記録で訓練された診断世界モデルDiagGymを提示する。これは患者の病歴と推奨検査に条件付けられた検査結果を出力し、現実的な診断訓練と評価のための仮想臨床環境として機能する。(ii) エンドツーエンドのマルチターン強化学習によりDiagAgentを訓練し、情報収益と診断精度の両方を最適化する診断ポリシーを学習させる。(iii) 医師により検証された検査推奨を含む750症例と、診断プロセスに関する医師記述973件のルーブリックで注釈付けされた99症例から構成される診断ベンチマークDiagBenchを導入する。(iv) 多様な診断設定において優れた性能を実証する。DiagAgentは、DeepSeek-v3やGPT-4oを含む10の最先端LLMおよび2つのプロンプトエンジニアリングされたエージェントを有意に上回った。シングルターン設定では、診断精度が9.34%向上し、検査推奨ヒット率が44.03%改善した。エンドツーエンド設定では、診断精度が15.12%向上し、検査推奨F1スコアが23.09%上昇した。ルーブリックベースの評価では、次点モデルであるClaude-sonnet-4を加重ルーブリックスコアで7.1%上回った。これらの知見は、対話型臨床環境でのポリシー学習が、受動的訓練だけでは得られない動的かつ臨床的に意味のある診断管理能力を付与することを示唆している。
English
In this paper, we present a framework for training large language models
(LLMs) as diagnostic agents with reinforcement learning, enabling them to
manage multi-turn diagnostic processes, adaptively select examinations, and
commit to final diagnoses. Unlike instruction-tuned models trained on static
case summaries, our method acquires diagnostic strategies through interactive
exploration and outcome-based feedback. Our contributions are fourfold: (i) We
present DiagGym, a diagnostics world model trained with electronic health
records that emits examination outcomes conditioned on patient history and
recommended examination, serving as a virtual clinical environment for
realistic diagnosis training and evaluation; (ii) We train DiagAgent via
end-to-end, multi-turn reinforcement learning to learn diagnostic policies that
optimize both information yield and diagnostic accuracy; (iii) We introduce
DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated
examination recommendations and 99 cases annotated with 973 physician-written
rubrics on diagnosis process; (iv) we demonstrate superior performance across
diverse diagnostic settings. DiagAgent significantly outperforms 10
state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two
prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34%
higher diagnostic accuracy and 44.03% improvement in examination recommendation
hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic
accuracy and 23.09% boost in examination recommendation F1 score. In
rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by
7.1% in weighted rubric score. These findings indicate that learning policies
in interactive clinical environments confers dynamic and clinically meaningful
diagnostic management abilities unattainable through passive training alone.