Entrenamiento de un Sistema RAG Agente de Extremo a Extremo para el Razonamiento Diagnóstico Rastreable
End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
August 21, 2025
Autores: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
Resumen
El diagnóstico preciso con modelos de lenguaje médico de gran escala se ve obstaculizado por brechas de conocimiento y alucinaciones. Los métodos de recuperación y aumentados con herramientas ayudan, pero su impacto está limitado por el uso débil de conocimiento externo y la escasa trazabilidad de la retroalimentación-razonamiento. Para abordar estos desafíos, presentamos Deep-DxSearch, un sistema RAG agéntico entrenado de extremo a extremo con aprendizaje por refuerzo (RL) que permite un razonamiento aumentado por recuperación trazable para el diagnóstico médico. En Deep-DxSearch, primero construimos un corpus de recuperación médica a gran escala que incluye registros de pacientes y fuentes de conocimiento médico confiables para apoyar el razonamiento consciente de la recuperación en diversos escenarios diagnósticos. Más crucialmente, enmarcamos al LLM como el agente central y al corpus de recuperación como su entorno, utilizando recompensas personalizadas en formato, recuperación, estructura de razonamiento y precisión diagnóstica, evolucionando así la política RAG agéntica a partir de datos a gran escala mediante RL.
Los experimentos demuestran que nuestro marco de entrenamiento agéntico RL de extremo a extremo supera consistentemente los enfoques RAG basados en ingeniería de prompts y sin entrenamiento en múltiples centros de datos. Después del entrenamiento, Deep-DxSearch logra mejoras sustanciales en la precisión diagnóstica, superando líneas de base diagnósticas sólidas como GPT-4o, DeepSeek-R1 y otros marcos específicos para medicina tanto en diagnósticos de enfermedades comunes como raras en entornos de distribución interna y externa. Además, los estudios de ablación sobre el diseño de recompensas y los componentes del corpus de recuperación confirman su papel crítico, destacando la singularidad y efectividad de nuestro enfoque en comparación con implementaciones tradicionales. Finalmente, estudios de casos y análisis de interpretabilidad resaltan mejoras en la política diagnóstica de Deep-DxSearch, proporcionando una visión más profunda de sus ganancias de rendimiento y apoyando a los clínicos en la entrega de diagnósticos preliminares más confiables y precisos. Consulte https://github.com/MAGIC-AI4Med/Deep-DxSearch.
English
Accurate diagnosis with medical large language models is hindered by
knowledge gaps and hallucinations. Retrieval and tool-augmented methods help,
but their impact is limited by weak use of external knowledge and poor
feedback-reasoning traceability. To address these challenges, We introduce
Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement
learning (RL) that enables steer tracebale retrieval-augmented reasoning for
medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical
retrieval corpus comprising patient records and reliable medical knowledge
sources to support retrieval-aware reasoning across diagnostic scenarios. More
crutially, we frame the LLM as the core agent and the retrieval corpus as its
environment, using tailored rewards on format, retrieval, reasoning structure,
and diagnostic accuracy, thereby evolving the agentic RAG policy from
large-scale data through RL.
Experiments demonstrate that our end-to-end agentic RL training framework
consistently outperforms prompt-engineering and training-free RAG approaches
across multiple data centers. After training, Deep-DxSearch achieves
substantial gains in diagnostic accuracy, surpassing strong diagnostic
baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks
for both common and rare disease diagnosis under in-distribution and
out-of-distribution settings. Moreover, ablation studies on reward design and
retrieval corpus components confirm their critical roles, underscoring the
uniqueness and effectiveness of our approach compared with traditional
implementations. Finally, case studies and interpretability analyses highlight
improvements in Deep-DxSearch's diagnostic policy, providing deeper insight
into its performance gains and supporting clinicians in delivering more
reliable and precise preliminary diagnoses. See
https://github.com/MAGIC-AI4Med/Deep-DxSearch.