Agentes Diagnósticos en Evolución en un Entorno Clínico Virtual
Evolving Diagnostic Agents in a Virtual Clinical Environment
October 28, 2025
Autores: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
Resumen
En este artículo, presentamos un marco para entrenar modelos de lenguaje grandes (LLM) como agentes de diagnóstico con aprendizaje por refuerzo, permitiéndoles gestionar procesos de diagnóstico multiturno, seleccionar exámenes de forma adaptativa y emitir diagnósticos finales. A diferencia de los modelos ajustados por instrucción entrenados en resúmenes de casos estáticos, nuestro método adquiere estrategias de diagnóstico mediante exploración interactiva y retroalimentación basada en resultados. Nuestras contribuciones son cuatro: (i) Presentamos DiagGym, un modelo de mundo de diagnóstico entrenado con registros de salud electrónicos que emite resultados de exámenes condicionados al historial del paciente y al examen recomendado, sirviendo como un entorno clínico virtual para el entrenamiento y evaluación realistas del diagnóstico; (ii) Entrenamos a DiagAgent mediante aprendizaje por refuerzo multiturno de extremo a extremo para aprender políticas de diagnóstico que optimizan tanto el rendimiento de información como la precisión diagnóstica; (iii) Introducimos DiagBench, un benchmark de diagnóstico que comprende 750 casos con recomendaciones de exámenes validadas por médicos y 99 casos anotados con 973 rúbricas escritas por médicos sobre el proceso de diagnóstico; (iv) Demostramos un rendimiento superior en diversos entornos de diagnóstico. DiagAgent supera significativamente a 10 LLM de última generación, incluyendo DeepSeek-v3 y GPT-4o, así como a dos agentes diseñados mediante ingeniería de prompts. En entornos de un solo turno, DiagAgent logra un 9.34% más de precisión diagnóstica y un 44.03% de mejora en la tasa de acierto de recomendación de exámenes. En entornos de extremo a extremo, produce un aumento del 15.12% en la precisión diagnóstica y un incremento del 23.09% en la puntuación F1 de la recomendación de exámenes. En la evaluación basada en rúbricas, supera al siguiente mejor modelo, Claude-sonnet-4, en un 7.1% en la puntuación de rúbrica ponderada. Estos hallazgos indican que el aprendizaje de políticas en entornos clínicos interactivos confiere capacidades dinámicas y clínicamente significativas de gestión diagnóstica inalcanzables mediante el entrenamiento pasivo únicamente.
English
In this paper, we present a framework for training large language models
(LLMs) as diagnostic agents with reinforcement learning, enabling them to
manage multi-turn diagnostic processes, adaptively select examinations, and
commit to final diagnoses. Unlike instruction-tuned models trained on static
case summaries, our method acquires diagnostic strategies through interactive
exploration and outcome-based feedback. Our contributions are fourfold: (i) We
present DiagGym, a diagnostics world model trained with electronic health
records that emits examination outcomes conditioned on patient history and
recommended examination, serving as a virtual clinical environment for
realistic diagnosis training and evaluation; (ii) We train DiagAgent via
end-to-end, multi-turn reinforcement learning to learn diagnostic policies that
optimize both information yield and diagnostic accuracy; (iii) We introduce
DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated
examination recommendations and 99 cases annotated with 973 physician-written
rubrics on diagnosis process; (iv) we demonstrate superior performance across
diverse diagnostic settings. DiagAgent significantly outperforms 10
state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two
prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34%
higher diagnostic accuracy and 44.03% improvement in examination recommendation
hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic
accuracy and 23.09% boost in examination recommendation F1 score. In
rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by
7.1% in weighted rubric score. These findings indicate that learning policies
in interactive clinical environments confers dynamic and clinically meaningful
diagnostic management abilities unattainable through passive training alone.