Agentes de Diagnóstico em Evolução em um Ambiente Clínico Virtual
Evolving Diagnostic Agents in a Virtual Clinical Environment
October 28, 2025
Autores: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
Resumo
Neste artigo, apresentamos uma estrutura para treinar grandes modelos de linguagem (LLMs) como agentes de diagnóstico com aprendizagem por reforço, permitindo-lhes gerir processos de diagnóstico multi-turno, selecionar exames de forma adaptativa e comprometer-se com diagnósticos finais. Ao contrário de modelos ajustados por instrução treinados em resumos de casos estáticos, nosso método adquire estratégias de diagnóstico através de exploração interativa e feedback baseado em resultados. Nossas contribuições são quádruplas: (i) Apresentamos o DiagGym, um modelo de mundo de diagnóstico treinado com registros eletrónicos de saúde que emite resultados de exames condicionados ao histórico do paciente e ao exame recomendado, servindo como ambiente clínico virtual para treino e avaliação diagnóstica realista; (ii) Treinamos o DiagAgent através de aprendizagem por reforço multi-turno de ponta a ponta para aprender políticas de diagnóstico que otimizam tanto o rendimento de informação quanto a precisão diagnóstica; (iii) Introduzimos o DiagBench, um benchmark de diagnóstico composto por 750 casos com recomendações de exames validadas por médicos e 99 casos anotados com 973 rubricas escritas por médicos sobre o processo de diagnóstico; (iv) Demonstramos desempenho superior em diversos contextos diagnósticos. O DiagAgent supera significativamente 10 LLMs state-of-the-art, incluindo DeepSeek-v3 e GPT-4o, bem como dois agentes com engenharia de prompt. Em configurações de turno único, o DiagAgent alcança 9,34% maior precisão diagnóstica e 44,03% de melhoria na taxa de acerto de recomendações de exames. Em configurações de ponta a ponta, proporciona um aumento de 15,12% na precisão diagnóstica e um incremento de 23,09% no score F1 de recomendações de exames. Na avaliação baseada em rubricas, supera o segundo melhor modelo, Claude-sonnet-4, em 7,1% no score de rubrica ponderado. Estes resultados indicam que a aprendizagem de políticas em ambientes clínicos interativos confere capacidades dinâmicas e clinicamente significativas de gestão diagnóstica inatingíveis apenas com treino passivo.
English
In this paper, we present a framework for training large language models
(LLMs) as diagnostic agents with reinforcement learning, enabling them to
manage multi-turn diagnostic processes, adaptively select examinations, and
commit to final diagnoses. Unlike instruction-tuned models trained on static
case summaries, our method acquires diagnostic strategies through interactive
exploration and outcome-based feedback. Our contributions are fourfold: (i) We
present DiagGym, a diagnostics world model trained with electronic health
records that emits examination outcomes conditioned on patient history and
recommended examination, serving as a virtual clinical environment for
realistic diagnosis training and evaluation; (ii) We train DiagAgent via
end-to-end, multi-turn reinforcement learning to learn diagnostic policies that
optimize both information yield and diagnostic accuracy; (iii) We introduce
DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated
examination recommendations and 99 cases annotated with 973 physician-written
rubrics on diagnosis process; (iv) we demonstrate superior performance across
diverse diagnostic settings. DiagAgent significantly outperforms 10
state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two
prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34%
higher diagnostic accuracy and 44.03% improvement in examination recommendation
hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic
accuracy and 23.09% boost in examination recommendation F1 score. In
rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by
7.1% in weighted rubric score. These findings indicate that learning policies
in interactive clinical environments confers dynamic and clinically meaningful
diagnostic management abilities unattainable through passive training alone.