Evoluerende Diagnostische Agenten in een Virtuele Klinische Omgeving
Evolving Diagnostic Agents in a Virtual Clinical Environment
October 28, 2025
Auteurs: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
Samenvatting
In dit artikel presenteren we een raamwerk voor het trainen van grote taalmmodellen (LLM's) als diagnostische agenten met reinforcement learning, waardoor ze in staat zijn om meerronde diagnostische processen te beheren, adaptief onderzoeken te selecteren en zich te committeren aan einddiagnoses. In tegenstelling tot instructie-afgestemde modellen die zijn getraind op statische casusoverzichten, verkrijgt onze methode diagnostische strategieën door middel van interactieve verkenning en op uitkomsten gebaseerde feedback. Onze bijdragen zijn vierledig: (i) We presenteren DiagGym, een diagnostisch wereldmodel getraind met elektronische patiëntendossiers dat onderzoeksuitkomsten genereert op basis van patiëntengeschiedenis en aanbevolen onderzoek, en dat fungeert als een virtuele klinische omgeving voor realistische diagnosetraining en -evaluatie; (ii) We trainen DiagAgent via end-to-end, meerronde reinforcement learning om diagnostische beleidsregels aan te leren die zowel de informatieopbrengst als de diagnostische nauwkeurigheid optimaliseren; (iii) We introduceren DiagBench, een diagnostische benchmark bestaande uit 750 casussen met door artsen gevalideerde onderzoeksaanbevelingen en 99 casussen geannoteerd met 973 door artsen geschreven beoordelingscriteria voor het diagnose-proces; (iv) We demonstreren superieure prestaties in diverse diagnostische settings. DiagAgent presteert significant beter dan 10 state-of-the-art LLM's, waaronder DeepSeek-v3 en GPT-4o, evenals twee prompt-gemanipuleerde agenten. In enkelronde settings behaalt DiagAgent 9,34% hogere diagnostische nauwkeurigheid en een 44,03% verbetering in de trefferratio voor onderzoeksaanbevelingen. In end-to-end settings levert het een stijging van 15,12% in diagnostische nauwkeurigheid en een verbetering van 23,09% in de F1-score voor onderzoeksaanbevelingen op. In de op beoordelingscriteria gebaseerde evaluatie overtreft het het op een na beste model, Claude-sonnet-4, met 7,1% in gewogen criteriumscore. Deze bevindingen geven aan dat het aanleren van beleidsregels in interactieve klinische omgevingen dynamische en klinisch betekenisvolle diagnostische managementvaardigheden biedt die niet bereikbaar zijn via passieve training alleen.
English
In this paper, we present a framework for training large language models
(LLMs) as diagnostic agents with reinforcement learning, enabling them to
manage multi-turn diagnostic processes, adaptively select examinations, and
commit to final diagnoses. Unlike instruction-tuned models trained on static
case summaries, our method acquires diagnostic strategies through interactive
exploration and outcome-based feedback. Our contributions are fourfold: (i) We
present DiagGym, a diagnostics world model trained with electronic health
records that emits examination outcomes conditioned on patient history and
recommended examination, serving as a virtual clinical environment for
realistic diagnosis training and evaluation; (ii) We train DiagAgent via
end-to-end, multi-turn reinforcement learning to learn diagnostic policies that
optimize both information yield and diagnostic accuracy; (iii) We introduce
DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated
examination recommendations and 99 cases annotated with 973 physician-written
rubrics on diagnosis process; (iv) we demonstrate superior performance across
diverse diagnostic settings. DiagAgent significantly outperforms 10
state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two
prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34%
higher diagnostic accuracy and 44.03% improvement in examination recommendation
hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic
accuracy and 23.09% boost in examination recommendation F1 score. In
rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by
7.1% in weighted rubric score. These findings indicate that learning policies
in interactive clinical environments confers dynamic and clinically meaningful
diagnostic management abilities unattainable through passive training alone.