ChatPaper.aiChatPaper

Addestramento End-to-End di Sistemi RAG Agenti per il Ragionamento Diagnostico Tracciabile

End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

August 21, 2025
Autori: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI

Abstract

Una diagnosi accurata con i modelli linguistici di grandi dimensioni in ambito medico è ostacolata da lacune conoscitive e allucinazioni. I metodi di recupero e di potenziamento con strumenti esterni aiutano, ma il loro impatto è limitato da un uso debole della conoscenza esterna e da una scarsa tracciabilità del ragionamento basato sul feedback. Per affrontare queste sfide, introduciamo Deep-DxSearch, un sistema RAG agentico addestrato end-to-end con apprendimento per rinforzo (RL) che abilita un ragionamento potenziato dal recupero tracciabile per la diagnosi medica. In Deep-DxSearch, costruiamo prima un corpus di recupero medico su larga scala che comprende cartelle cliniche e fonti di conoscenza medica affidabili per supportare il ragionamento consapevole del recupero in vari scenari diagnostici. Ancora più crucialmente, incorniciamo il LLM come agente centrale e il corpus di recupero come suo ambiente, utilizzando ricompense personalizzate su formato, recupero, struttura del ragionamento e accuratezza diagnostica, evolvendo così la politica RAG agentica da dati su larga scala attraverso l'RL. Gli esperimenti dimostrano che il nostro framework di addestramento agentico RL end-to-end supera costantemente gli approcci RAG basati su prompt engineering e privi di addestramento in più centri dati. Dopo l'addestramento, Deep-DxSearch ottiene miglioramenti sostanziali nell'accuratezza diagnostica, superando baseline diagnostici robusti come GPT-4o, DeepSeek-R1 e altri framework specifici per la medicina sia per la diagnosi di malattie comuni che rare, in contesti di distribuzione interna ed esterna. Inoltre, studi di ablazione sul design delle ricompense e sui componenti del corpus di recupero confermano il loro ruolo critico, sottolineando l'unicità e l'efficacia del nostro approccio rispetto alle implementazioni tradizionali. Infine, studi di caso e analisi di interpretabilità evidenziano miglioramenti nella politica diagnostica di Deep-DxSearch, fornendo una comprensione più profonda dei suoi guadagni di prestazioni e supportando i clinici nel fornire diagnosi preliminari più affidabili e precise. Vedi https://github.com/MAGIC-AI4Med/Deep-DxSearch.
English
Accurate diagnosis with medical large language models is hindered by knowledge gaps and hallucinations. Retrieval and tool-augmented methods help, but their impact is limited by weak use of external knowledge and poor feedback-reasoning traceability. To address these challenges, We introduce Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement learning (RL) that enables steer tracebale retrieval-augmented reasoning for medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical retrieval corpus comprising patient records and reliable medical knowledge sources to support retrieval-aware reasoning across diagnostic scenarios. More crutially, we frame the LLM as the core agent and the retrieval corpus as its environment, using tailored rewards on format, retrieval, reasoning structure, and diagnostic accuracy, thereby evolving the agentic RAG policy from large-scale data through RL. Experiments demonstrate that our end-to-end agentic RL training framework consistently outperforms prompt-engineering and training-free RAG approaches across multiple data centers. After training, Deep-DxSearch achieves substantial gains in diagnostic accuracy, surpassing strong diagnostic baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks for both common and rare disease diagnosis under in-distribution and out-of-distribution settings. Moreover, ablation studies on reward design and retrieval corpus components confirm their critical roles, underscoring the uniqueness and effectiveness of our approach compared with traditional implementations. Finally, case studies and interpretability analyses highlight improvements in Deep-DxSearch's diagnostic policy, providing deeper insight into its performance gains and supporting clinicians in delivering more reliable and precise preliminary diagnoses. See https://github.com/MAGIC-AI4Med/Deep-DxSearch.
PDF132August 25, 2025