Эволюция диагностических агентов в виртуальной клинической среде
Evolving Diagnostic Agents in a Virtual Clinical Environment
October 28, 2025
Авторы: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
Аннотация
В данной статье мы представляем фреймворк для обучения больших языковых моделей (LLM) в качестве диагностических агентов с использованием обучения с подкреплением, что позволяет им управлять многошаговыми диагностическими процессами, адаптивно выбирать обследования и формулировать окончательные диагнозы. В отличие от моделей, дообученных на инструкциях на статических сводках случаев, наш метод приобретает диагностические стратегии через интерактивное исследование и обратную связь на основе результатов. Наш вклад четырехкратен: (i) Мы представляем DiagGym, модель диагностического мира, обученную на электронных медицинских картах, которая выдает результаты обследований в зависимости от истории пациента и рекомендованного обследования, служа виртуальной клинической средой для реалистичного обучения и оценки диагностики; (ii) Мы обучаем DiagAgent сквозному, многошаговому обучению с подкреплением для изучения диагностических политик, оптимизирующих как информационную отдачу, так и точность диагноза; (iii) Мы представляем DiagBench, диагностический бенчмарк, включающий 750 случаев с рекомендациями по обследованию, проверенными врачами, и 99 случаев с аннотациями, содержащими 973 врачебных рубрики по диагностическому процессу; (iv) Мы демонстрируем превосходную производительность в различных диагностических сценариях. DiagAgent значительно превосходит 10 современных LLM, включая DeepSeek-v3 и GPT-4o, а также двух промпт-инженерных агентов. В одношаговых сценариях DiagAgent демонстрирует на 9.34% более высокую диагностическую точность и на 44.03% лучшее соответствие рекомендаций по обследованию. В сквозных сценариях он обеспечивает увеличение диагностической точности на 15.12% и улучшение F1-меры для рекомендаций по обследованию на 23.09%. При оценке по рубрикам он превосходит следующую лучшую модель, Claude-sonnet-4, на 7.1% по взвешенному рубричному score. Эти результаты указывают, что обучение политик в интерактивных клинических средах наделяет динамическими и клинически значимыми способностями к диагностическому управлению, недостижимыми при пассивном обучении.
English
In this paper, we present a framework for training large language models
(LLMs) as diagnostic agents with reinforcement learning, enabling them to
manage multi-turn diagnostic processes, adaptively select examinations, and
commit to final diagnoses. Unlike instruction-tuned models trained on static
case summaries, our method acquires diagnostic strategies through interactive
exploration and outcome-based feedback. Our contributions are fourfold: (i) We
present DiagGym, a diagnostics world model trained with electronic health
records that emits examination outcomes conditioned on patient history and
recommended examination, serving as a virtual clinical environment for
realistic diagnosis training and evaluation; (ii) We train DiagAgent via
end-to-end, multi-turn reinforcement learning to learn diagnostic policies that
optimize both information yield and diagnostic accuracy; (iii) We introduce
DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated
examination recommendations and 99 cases annotated with 973 physician-written
rubrics on diagnosis process; (iv) we demonstrate superior performance across
diverse diagnostic settings. DiagAgent significantly outperforms 10
state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two
prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34%
higher diagnostic accuracy and 44.03% improvement in examination recommendation
hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic
accuracy and 23.09% boost in examination recommendation F1 score. In
rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by
7.1% in weighted rubric score. These findings indicate that learning policies
in interactive clinical environments confers dynamic and clinically meaningful
diagnostic management abilities unattainable through passive training alone.