Entwicklung diagnostischer Agenten in einer virtuellen klinischen Umgebung
Evolving Diagnostic Agents in a Virtual Clinical Environment
October 28, 2025
papers.authors: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
papers.abstract
In diesem Beitrag stellen wir ein Framework für das Training großer Sprachmodelle (LLMs) als diagnostische Agenten mittels Reinforcement Learning vor, das sie befähigt, mehrstufige Diagnoseprozesse zu steuern, adaptiv Untersuchungen auszuwählen und endgültige Diagnosen zu stellen. Im Gegensatz zu Instruktions-finetunierten Modellen, die auf statischen Fallzusammenfassungen trainiert wurden, erwirbt unsere Methode diagnostische Strategien durch interaktive Exploration und ergebnisbasiertes Feedback. Unsere Beiträge sind vierfach: (i) Wir stellen DiagGym vor, ein diagnostisches Weltmodell, das mit elektronischen Gesundheitsakten trainiert wurde und Untersuchungsergebnisse in Abhängigkeit von der Patientengeschichte und der empfohlenen Untersuchung emittiert; es dient als virtuelle klinische Umgebung für realistische Diagnoseschulung und -bewertung. (ii) Wir trainieren DiagAgent mittels End-to-End-Reinforcement-Learning über mehrere Interaktionen, um diagnostische Strategien zu erlernen, die sowohl den Informationsgewinn als auch die diagnostische Genauigkeit optimieren. (iii) Wir führen DiagBench ein, einen diagnostischen Benchmark, der 750 Fälle mit ärztlich validierten Untersuchungsempfehlungen sowie 99 Fälle umfasst, die mit 973 von Ärzten verfassten Bewertungsrastern zum Diagnoseprozess annotiert sind. (iv) Wir demonstrieren überlegene Leistung in verschiedenen diagnostischen Szenarien. DiagAgent übertrifft signifikant 10 state-of-the-art LLMs, einschließlich DeepSeek-v3 und GPT-4o, sowie zwei prompt-optimierte Agenten. In Einzelschritt-Szenarien erzielt DiagAgent eine um 9,34 % höhere diagnostische Trefferquote und eine Verbesserung der Trefferquote bei Untersuchungsempfehlungen um 44,03 %. In End-to-End-Szenarien erreicht es eine Steigerung der diagnostischen Genauigkeit um 15,12 % und eine Verbesserung des F1-Scores für Untersuchungsempfehlungen um 23,09 %. In der bewertungsrasterbasierten Evaluation übertrifft es das nächstbeste Modell, Claude-sonnet-4, um 7,1 % im gewichteten Bewertungsrasterscore. Diese Ergebnisse zeigen, dass das Erlernen von Strategien in interaktiven klinischen Umgebungen dynamische und klinisch bedeutsame Fähigkeiten im diagnostischen Management verleiht, die durch rein passives Training nicht erreichbar sind.
English
In this paper, we present a framework for training large language models
(LLMs) as diagnostic agents with reinforcement learning, enabling them to
manage multi-turn diagnostic processes, adaptively select examinations, and
commit to final diagnoses. Unlike instruction-tuned models trained on static
case summaries, our method acquires diagnostic strategies through interactive
exploration and outcome-based feedback. Our contributions are fourfold: (i) We
present DiagGym, a diagnostics world model trained with electronic health
records that emits examination outcomes conditioned on patient history and
recommended examination, serving as a virtual clinical environment for
realistic diagnosis training and evaluation; (ii) We train DiagAgent via
end-to-end, multi-turn reinforcement learning to learn diagnostic policies that
optimize both information yield and diagnostic accuracy; (iii) We introduce
DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated
examination recommendations and 99 cases annotated with 973 physician-written
rubrics on diagnosis process; (iv) we demonstrate superior performance across
diverse diagnostic settings. DiagAgent significantly outperforms 10
state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two
prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34%
higher diagnostic accuracy and 44.03% improvement in examination recommendation
hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic
accuracy and 23.09% boost in examination recommendation F1 score. In
rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by
7.1% in weighted rubric score. These findings indicate that learning policies
in interactive clinical environments confers dynamic and clinically meaningful
diagnostic management abilities unattainable through passive training alone.