ChatPaper.aiChatPaper

Entraînement d'un système RAG agentique de bout en bout pour un raisonnement diagnostique traçable

End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

August 21, 2025
papers.authors: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI

papers.abstract

Le diagnostic précis avec les grands modèles de langage médicaux est entravé par des lacunes de connaissances et des hallucinations. Les méthodes de récupération et d'augmentation par outils aident, mais leur impact est limité par une utilisation faible des connaissances externes et une traçabilité médiocre du raisonnement basé sur les retours. Pour relever ces défis, nous introduisons Deep-DxSearch, un système RAG agentique entraîné de bout en bout par apprentissage par renforcement (RL) qui permet un raisonnement augmenté par récupération traçable pour le diagnostic médical. Dans Deep-DxSearch, nous construisons d'abord un corpus de récupération médicale à grande échelle comprenant des dossiers patients et des sources de connaissances médicales fiables pour soutenir un raisonnement conscient de la récupération dans divers scénarios diagnostiques. Plus crucialement, nous positionnons le LLM comme l'agent central et le corpus de récupération comme son environnement, en utilisant des récompenses adaptées sur le format, la récupération, la structure du raisonnement et la précision diagnostique, faisant ainsi évoluer la politique RAG agentique à partir de données à grande échelle via le RL. Les expériences démontrent que notre cadre d'entraînement RL agentique de bout en bout surpasse systématiquement les approches RAG basées sur l'ingénierie des prompts et sans entraînement dans plusieurs centres de données. Après entraînement, Deep-DxSearch obtient des gains substantiels en précision diagnostique, surpassant des références diagnostiques solides telles que GPT-4o, DeepSeek-R1 et d'autres cadres spécifiques à la médecine pour le diagnostic de maladies courantes et rares dans des contextes de distribution interne et externe. De plus, des études d'ablation sur la conception des récompenses et les composants du corpus de récupération confirment leurs rôles critiques, soulignant l'unicité et l'efficacité de notre approche par rapport aux implémentations traditionnelles. Enfin, des études de cas et des analyses d'interprétabilité mettent en lumière les améliorations apportées à la politique diagnostique de Deep-DxSearch, offrant un aperçu plus approfondi de ses gains de performance et aidant les cliniciens à fournir des diagnostics préliminaires plus fiables et précis. Voir https://github.com/MAGIC-AI4Med/Deep-DxSearch.
English
Accurate diagnosis with medical large language models is hindered by knowledge gaps and hallucinations. Retrieval and tool-augmented methods help, but their impact is limited by weak use of external knowledge and poor feedback-reasoning traceability. To address these challenges, We introduce Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement learning (RL) that enables steer tracebale retrieval-augmented reasoning for medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical retrieval corpus comprising patient records and reliable medical knowledge sources to support retrieval-aware reasoning across diagnostic scenarios. More crutially, we frame the LLM as the core agent and the retrieval corpus as its environment, using tailored rewards on format, retrieval, reasoning structure, and diagnostic accuracy, thereby evolving the agentic RAG policy from large-scale data through RL. Experiments demonstrate that our end-to-end agentic RL training framework consistently outperforms prompt-engineering and training-free RAG approaches across multiple data centers. After training, Deep-DxSearch achieves substantial gains in diagnostic accuracy, surpassing strong diagnostic baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks for both common and rare disease diagnosis under in-distribution and out-of-distribution settings. Moreover, ablation studies on reward design and retrieval corpus components confirm their critical roles, underscoring the uniqueness and effectiveness of our approach compared with traditional implementations. Finally, case studies and interpretability analyses highlight improvements in Deep-DxSearch's diagnostic policy, providing deeper insight into its performance gains and supporting clinicians in delivering more reliable and precise preliminary diagnoses. See https://github.com/MAGIC-AI4Med/Deep-DxSearch.
PDF72August 25, 2025