Эволюция диагностических агентов в виртуальной клинической среде

Аннотация

В данной статье мы представляем фреймворк для обучения больших языковых моделей (LLM) в качестве диагностических агентов с использованием обучения с подкреплением, что позволяет им управлять многошаговыми диагностическими процессами, адаптивно выбирать обследования и формулировать окончательные диагнозы. В отличие от моделей, дообученных на инструкциях на статических сводках случаев, наш метод приобретает диагностические стратегии через интерактивное исследование и обратную связь на основе результатов. Наш вклад четырехкратен: (i) Мы представляем DiagGym, модель диагностического мира, обученную на электронных медицинских картах, которая выдает результаты обследований в зависимости от истории пациента и рекомендованного обследования, служа виртуальной клинической средой для реалистичного обучения и оценки диагностики; (ii) Мы обучаем DiagAgent сквозному, многошаговому обучению с подкреплением для изучения диагностических политик, оптимизирующих как информационную отдачу, так и точность диагноза; (iii) Мы представляем DiagBench, диагностический бенчмарк, включающий 750 случаев с рекомендациями по обследованию, проверенными врачами, и 99 случаев с аннотациями, содержащими 973 врачебных рубрики по диагностическому процессу; (iv) Мы демонстрируем превосходную производительность в различных диагностических сценариях. DiagAgent значительно превосходит 10 современных LLM, включая DeepSeek-v3 и GPT-4o, а также двух промпт-инженерных агентов. В одношаговых сценариях DiagAgent демонстрирует на 9.34% более высокую диагностическую точность и на 44.03% лучшее соответствие рекомендаций по обследованию. В сквозных сценариях он обеспечивает увеличение диагностической точности на 15.12% и улучшение F1-меры для рекомендаций по обследованию на 23.09%. При оценке по рубрикам он превосходит следующую лучшую модель, Claude-sonnet-4, на 7.1% по взвешенному рубричному score. Эти результаты указывают, что обучение политик в интерактивных клинических средах наделяет динамическими и клинически значимыми способностями к диагностическому управлению, недостижимыми при пассивном обучении.

English

In this paper, we present a framework for training large language models (LLMs) as diagnostic agents with reinforcement learning, enabling them to manage multi-turn diagnostic processes, adaptively select examinations, and commit to final diagnoses. Unlike instruction-tuned models trained on static case summaries, our method acquires diagnostic strategies through interactive exploration and outcome-based feedback. Our contributions are fourfold: (i) We present DiagGym, a diagnostics world model trained with electronic health records that emits examination outcomes conditioned on patient history and recommended examination, serving as a virtual clinical environment for realistic diagnosis training and evaluation; (ii) We train DiagAgent via end-to-end, multi-turn reinforcement learning to learn diagnostic policies that optimize both information yield and diagnostic accuracy; (iii) We introduce DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated examination recommendations and 99 cases annotated with 973 physician-written rubrics on diagnosis process; (iv) we demonstrate superior performance across diverse diagnostic settings. DiagAgent significantly outperforms 10 state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34% higher diagnostic accuracy and 44.03% improvement in examination recommendation hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic accuracy and 23.09% boost in examination recommendation F1 score. In rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by 7.1% in weighted rubric score. These findings indicate that learning policies in interactive clinical environments confers dynamic and clinically meaningful diagnostic management abilities unattainable through passive training alone.