Обучение сквозной агентной системы RAG для отслеживаемой диагностической логики
End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
August 21, 2025
Авторы: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
Аннотация
Точная диагностика с использованием крупных языковых моделей в медицине затруднена из-за пробелов в знаниях и галлюцинаций. Методы, основанные на извлечении информации и использовании инструментов, помогают, но их эффективность ограничена слабым использованием внешних знаний и плохой отслеживаемостью обратной связи и рассуждений. Для решения этих проблем мы представляем Deep-DxSearch — агентскую систему RAG (Retrieval-Augmented Generation), обученную с конца в конец с использованием обучения с подкреплением (RL), которая обеспечивает управляемое и отслеживаемое извлечение информации и рассуждения для медицинской диагностики. В Deep-DxSearch мы сначала создаем крупномасштабный медицинский корпус для извлечения информации, включающий записи пациентов и надежные источники медицинских знаний, чтобы поддерживать рассуждения, учитывающие извлечение информации, в различных диагностических сценариях. Более важно, мы рассматриваем языковую модель как основного агента, а корпус для извлечения информации — как его окружение, используя специализированные вознаграждения за формат, извлечение, структуру рассуждений и точность диагностики, тем самым развивая агентскую политику RAG на основе крупномасштабных данных через RL.
Эксперименты показывают, что наша сквозная агентская RL-обучающая структура стабильно превосходит подходы, основанные на инженерии подсказок и RAG без обучения, в нескольких центрах обработки данных. После обучения Deep-DxSearch достигает значительного улучшения точности диагностики, превосходя сильные диагностические базовые модели, такие как GPT-4o, DeepSeek-R1 и другие медицинские специализированные фреймворки, как для диагностики распространенных, так и редких заболеваний в условиях распределения и вне распределения. Более того, исследования по удалению компонентов вознаграждения и корпуса для извлечения информации подтверждают их критическую роль, подчеркивая уникальность и эффективность нашего подхода по сравнению с традиционными реализациями. Наконец, кейс-стади и анализы интерпретируемости демонстрируют улучшения в диагностической политике Deep-DxSearch, предоставляя более глубокое понимание ее улучшений в производительности и поддерживая клиницистов в предоставлении более надежных и точных предварительных диагнозов. См. https://github.com/MAGIC-AI4Med/Deep-DxSearch.
English
Accurate diagnosis with medical large language models is hindered by
knowledge gaps and hallucinations. Retrieval and tool-augmented methods help,
but their impact is limited by weak use of external knowledge and poor
feedback-reasoning traceability. To address these challenges, We introduce
Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement
learning (RL) that enables steer tracebale retrieval-augmented reasoning for
medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical
retrieval corpus comprising patient records and reliable medical knowledge
sources to support retrieval-aware reasoning across diagnostic scenarios. More
crutially, we frame the LLM as the core agent and the retrieval corpus as its
environment, using tailored rewards on format, retrieval, reasoning structure,
and diagnostic accuracy, thereby evolving the agentic RAG policy from
large-scale data through RL.
Experiments demonstrate that our end-to-end agentic RL training framework
consistently outperforms prompt-engineering and training-free RAG approaches
across multiple data centers. After training, Deep-DxSearch achieves
substantial gains in diagnostic accuracy, surpassing strong diagnostic
baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks
for both common and rare disease diagnosis under in-distribution and
out-of-distribution settings. Moreover, ablation studies on reward design and
retrieval corpus components confirm their critical roles, underscoring the
uniqueness and effectiveness of our approach compared with traditional
implementations. Finally, case studies and interpretability analyses highlight
improvements in Deep-DxSearch's diagnostic policy, providing deeper insight
into its performance gains and supporting clinicians in delivering more
reliable and precise preliminary diagnoses. See
https://github.com/MAGIC-AI4Med/Deep-DxSearch.