End-to-End-Training eines agentenbasierten RAG-Systems für nachvollziehbares diagnostisches Denken
End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
August 21, 2025
papers.authors: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
papers.abstract
Eine präzise Diagnose mit medizinischen Large Language Models wird durch Wissenslücken und Halluzinationen erschwert. Retrieval- und Tool-unterstützte Methoden helfen, doch ihre Wirkung wird durch die schwache Nutzung externen Wissens und eine mangelnde Rückverfolgbarkeit von Feedback und Schlussfolgerungen begrenzt. Um diese Herausforderungen zu bewältigen, führen wir Deep-DxSearch ein, ein agentenbasiertes RAG-System, das end-to-end mit Reinforcement Learning (RL) trainiert wird und eine steuerbare, nachvollziehbare Retrieval-unterstützte Schlussfolgerung für medizinische Diagnosen ermöglicht. In Deep-DxSearch konstruieren wir zunächst ein großes medizinisches Retrieval-Korpus, das Patientenakten und zuverlässige medizinische Wissensquellen umfasst, um retrieval-bewusstes Denken über verschiedene Diagnoseszenarien hinweg zu unterstützen. Entscheidend ist, dass wir das LLM als zentralen Agenten und das Retrieval-Korpus als dessen Umgebung betrachten, indem wir maßgeschneiderte Belohnungen für Format, Retrieval, Schlussfolgerungsstruktur und Diagnosegenauigkeit verwenden, wodurch die agentenbasierte RAG-Politik durch RL aus großen Datenmengen weiterentwickelt wird.
Experimente zeigen, dass unser end-to-end agentenbasiertes RL-Trainingsframework durchweg Prompt-Engineering und trainingsfreie RAG-Ansätze über mehrere Rechenzentren hinweg übertrifft. Nach dem Training erzielt Deep-DxSearch erhebliche Verbesserungen in der Diagnosegenauigkeit und übertrifft starke Diagnose-Benchmarks wie GPT-4o, DeepSeek-R1 und andere medizinspezifische Frameworks sowohl bei der Diagnose häufiger als auch seltener Krankheiten unter In-Distribution- und Out-of-Distribution-Bedingungen. Darüber hinaus bestätigen Ablationsstudien zum Belohnungsdesign und zu den Komponenten des Retrieval-Korpus deren entscheidende Rolle und unterstreichen die Einzigartigkeit und Effektivität unseres Ansatzes im Vergleich zu traditionellen Implementierungen. Schließlich zeigen Fallstudien und Interpretierbarkeitsanalysen Verbesserungen in der Diagnosepolitik von Deep-DxSearch auf, bieten tiefere Einblicke in die Leistungssteigerungen und unterstützen Kliniker bei der Erstellung zuverlässigerer und präziserer vorläufiger Diagnosen. Siehe https://github.com/MAGIC-AI4Med/Deep-DxSearch.
English
Accurate diagnosis with medical large language models is hindered by
knowledge gaps and hallucinations. Retrieval and tool-augmented methods help,
but their impact is limited by weak use of external knowledge and poor
feedback-reasoning traceability. To address these challenges, We introduce
Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement
learning (RL) that enables steer tracebale retrieval-augmented reasoning for
medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical
retrieval corpus comprising patient records and reliable medical knowledge
sources to support retrieval-aware reasoning across diagnostic scenarios. More
crutially, we frame the LLM as the core agent and the retrieval corpus as its
environment, using tailored rewards on format, retrieval, reasoning structure,
and diagnostic accuracy, thereby evolving the agentic RAG policy from
large-scale data through RL.
Experiments demonstrate that our end-to-end agentic RL training framework
consistently outperforms prompt-engineering and training-free RAG approaches
across multiple data centers. After training, Deep-DxSearch achieves
substantial gains in diagnostic accuracy, surpassing strong diagnostic
baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks
for both common and rare disease diagnosis under in-distribution and
out-of-distribution settings. Moreover, ablation studies on reward design and
retrieval corpus components confirm their critical roles, underscoring the
uniqueness and effectiveness of our approach compared with traditional
implementations. Finally, case studies and interpretability analyses highlight
improvements in Deep-DxSearch's diagnostic policy, providing deeper insight
into its performance gains and supporting clinicians in delivering more
reliable and precise preliminary diagnoses. See
https://github.com/MAGIC-AI4Med/Deep-DxSearch.