ChatPaper.aiChatPaper

End-to-End Training van een Agentisch RAG-systeem voor Traceerbare Diagnostische Redenering

End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

August 21, 2025
Auteurs: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI

Samenvatting

Nauwkeurige diagnose met medische grote taalmodellen wordt belemmerd door kennislacunes en hallucinaties. Retrieval- en tool-augmented methoden helpen, maar hun impact wordt beperkt door zwak gebruik van externe kennis en slechte traceerbaarheid van feedback-redeneringen. Om deze uitdagingen aan te pakken, introduceren we Deep-DxSearch, een agentisch RAG-systeem dat end-to-end is getraind met reinforcement learning (RL) en stuurbare, traceerbare retrieval-augmented redenering mogelijk maakt voor medische diagnose. In Deep-DxSearch construeren we eerst een grootschalig medisch retrieval-corpus bestaat uit patiëntendossiers en betrouwbare medische kennisbronnen om retrieval-bewuste redenering te ondersteunen in verschillende diagnosescenario's. Cruciaal is dat we het LLM framen als de kernagent en het retrieval-corpus als zijn omgeving, waarbij we gebruik maken van op maat gemaakte beloningen voor formaat, retrieval, redeneerstructuur en diagnosenauwkeurigheid, waardoor het agentische RAG-beleid evolueert vanuit grootschalige data via RL. Experimenten tonen aan dat ons end-to-end agentische RL-trainingsframework consistent beter presteert dan prompt-engineering en trainingsvrije RAG- benaderingen in meerdere datacenters. Na training behaalt Deep-DxSearch aanzienlijke verbeteringen in diagnosenauwkeurigheid, waarbij het sterke diagnostische baselines zoals GPT-4o, DeepSeek-R1 en andere medisch-specifieke frameworks overtreft voor zowel veelvoorkomende als zeldzame ziekten onder in-distributie en out-of-distributie omstandigheden. Bovendien bevestigen ablatiestudies over beloningsontwerp en retrieval-corpuscomponenten hun kritieke rollen, wat de uniciteit en effectiviteit van onze aanpak benadrukt in vergelijking met traditionele implementaties. Ten slotte belichten casestudies en interpreteerbaarheidsanalyses verbeteringen in het diagnostische beleid van Deep-DxSearch, wat dieper inzicht biedt in de prestatieverbeteringen en clinici ondersteunt bij het leveren van betrouwbaardere en preciezere voorlopige diagnoses. Zie https://github.com/MAGIC-AI4Med/Deep-DxSearch.
English
Accurate diagnosis with medical large language models is hindered by knowledge gaps and hallucinations. Retrieval and tool-augmented methods help, but their impact is limited by weak use of external knowledge and poor feedback-reasoning traceability. To address these challenges, We introduce Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement learning (RL) that enables steer tracebale retrieval-augmented reasoning for medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical retrieval corpus comprising patient records and reliable medical knowledge sources to support retrieval-aware reasoning across diagnostic scenarios. More crutially, we frame the LLM as the core agent and the retrieval corpus as its environment, using tailored rewards on format, retrieval, reasoning structure, and diagnostic accuracy, thereby evolving the agentic RAG policy from large-scale data through RL. Experiments demonstrate that our end-to-end agentic RL training framework consistently outperforms prompt-engineering and training-free RAG approaches across multiple data centers. After training, Deep-DxSearch achieves substantial gains in diagnostic accuracy, surpassing strong diagnostic baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks for both common and rare disease diagnosis under in-distribution and out-of-distribution settings. Moreover, ablation studies on reward design and retrieval corpus components confirm their critical roles, underscoring the uniqueness and effectiveness of our approach compared with traditional implementations. Finally, case studies and interpretability analyses highlight improvements in Deep-DxSearch's diagnostic policy, providing deeper insight into its performance gains and supporting clinicians in delivering more reliable and precise preliminary diagnoses. See https://github.com/MAGIC-AI4Med/Deep-DxSearch.
PDF132August 25, 2025