ChatPaper.aiChatPaper

Agentes Diagnósticos en Evolución en un Entorno Clínico Virtual

Evolving Diagnostic Agents in a Virtual Clinical Environment

October 28, 2025
Autores: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI

Resumen

En este artículo, presentamos un marco para entrenar modelos de lenguaje grandes (LLM) como agentes de diagnóstico con aprendizaje por refuerzo, permitiéndoles gestionar procesos de diagnóstico multiturno, seleccionar exámenes de forma adaptativa y emitir diagnósticos finales. A diferencia de los modelos ajustados por instrucción entrenados en resúmenes de casos estáticos, nuestro método adquiere estrategias de diagnóstico mediante exploración interactiva y retroalimentación basada en resultados. Nuestras contribuciones son cuatro: (i) Presentamos DiagGym, un modelo de mundo de diagnóstico entrenado con registros de salud electrónicos que emite resultados de exámenes condicionados al historial del paciente y al examen recomendado, sirviendo como un entorno clínico virtual para el entrenamiento y evaluación realistas del diagnóstico; (ii) Entrenamos a DiagAgent mediante aprendizaje por refuerzo multiturno de extremo a extremo para aprender políticas de diagnóstico que optimizan tanto el rendimiento de información como la precisión diagnóstica; (iii) Introducimos DiagBench, un benchmark de diagnóstico que comprende 750 casos con recomendaciones de exámenes validadas por médicos y 99 casos anotados con 973 rúbricas escritas por médicos sobre el proceso de diagnóstico; (iv) Demostramos un rendimiento superior en diversos entornos de diagnóstico. DiagAgent supera significativamente a 10 LLM de última generación, incluyendo DeepSeek-v3 y GPT-4o, así como a dos agentes diseñados mediante ingeniería de prompts. En entornos de un solo turno, DiagAgent logra un 9.34% más de precisión diagnóstica y un 44.03% de mejora en la tasa de acierto de recomendación de exámenes. En entornos de extremo a extremo, produce un aumento del 15.12% en la precisión diagnóstica y un incremento del 23.09% en la puntuación F1 de la recomendación de exámenes. En la evaluación basada en rúbricas, supera al siguiente mejor modelo, Claude-sonnet-4, en un 7.1% en la puntuación de rúbrica ponderada. Estos hallazgos indican que el aprendizaje de políticas en entornos clínicos interactivos confiere capacidades dinámicas y clínicamente significativas de gestión diagnóstica inalcanzables mediante el entrenamiento pasivo únicamente.
English
In this paper, we present a framework for training large language models (LLMs) as diagnostic agents with reinforcement learning, enabling them to manage multi-turn diagnostic processes, adaptively select examinations, and commit to final diagnoses. Unlike instruction-tuned models trained on static case summaries, our method acquires diagnostic strategies through interactive exploration and outcome-based feedback. Our contributions are fourfold: (i) We present DiagGym, a diagnostics world model trained with electronic health records that emits examination outcomes conditioned on patient history and recommended examination, serving as a virtual clinical environment for realistic diagnosis training and evaluation; (ii) We train DiagAgent via end-to-end, multi-turn reinforcement learning to learn diagnostic policies that optimize both information yield and diagnostic accuracy; (iii) We introduce DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated examination recommendations and 99 cases annotated with 973 physician-written rubrics on diagnosis process; (iv) we demonstrate superior performance across diverse diagnostic settings. DiagAgent significantly outperforms 10 state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34% higher diagnostic accuracy and 44.03% improvement in examination recommendation hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic accuracy and 23.09% boost in examination recommendation F1 score. In rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by 7.1% in weighted rubric score. These findings indicate that learning policies in interactive clinical environments confers dynamic and clinically meaningful diagnostic management abilities unattainable through passive training alone.
PDF111December 2, 2025