トレーサブルな診断推論のためのエンドツーエンドエージェント型RAGシステムトレーニング
End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
August 21, 2025
著者: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie
cs.AI
要旨
医療用大規模言語モデル(LLM)を用いた正確な診断は、知識のギャップと幻覚(hallucination)によって妨げられている。検索とツール補強型の手法はこれを改善するが、外部知識の弱い活用やフィードバック・推論のトレーサビリティの低さにより、その効果は限定的である。これらの課題に対処するため、我々はDeep-DxSearchを提案する。これは、強化学習(RL)を用いてエンドツーエンドで訓練されたエージェント型RAG(Retrieval-Augmented Generation)システムであり、医療診断におけるトレーサブルな検索補強推論を可能にする。Deep-DxSearchでは、まず、患者記録と信頼性の高い医療知識源からなる大規模な医療検索コーパスを構築し、診断シナリオ全体での検索を意識した推論をサポートする。さらに重要な点として、LLMをコアエージェントとし、検索コーパスをその環境として位置づけ、フォーマット、検索、推論構造、診断精度に特化した報酬を設計することで、大規模データを通じてエージェント型RAGポリシーを進化させる。
実験結果は、我々のエンドツーエンドエージェント型RL訓練フレームワークが、複数のデータセンターにおいて、プロンプトエンジニアリングや訓練不要のRAGアプローチを一貫して上回ることを示している。訓練後、Deep-DxSearchは診断精度において大幅な向上を達成し、GPT-4oやDeepSeek-R1、その他の医療特化型フレームワークといった強力な診断ベースラインを、分布内および分布外設定における一般的および希少疾患の診断で凌駕した。さらに、報酬設計と検索コーパス構成要素に関するアブレーション研究は、それらの重要性を確認し、従来の実装と比較した我々のアプローチの独自性と有効性を強調している。最後に、ケーススタディと解釈可能性分析は、Deep-DxSearchの診断ポリシーの改善を明らかにし、その性能向上の深い洞察を提供するとともに、臨床医がより信頼性と精度の高い予備診断を提供することを支援する。詳細はhttps://github.com/MAGIC-AI4Med/Deep-DxSearchを参照。
English
Accurate diagnosis with medical large language models is hindered by
knowledge gaps and hallucinations. Retrieval and tool-augmented methods help,
but their impact is limited by weak use of external knowledge and poor
feedback-reasoning traceability. To address these challenges, We introduce
Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement
learning (RL) that enables steer tracebale retrieval-augmented reasoning for
medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical
retrieval corpus comprising patient records and reliable medical knowledge
sources to support retrieval-aware reasoning across diagnostic scenarios. More
crutially, we frame the LLM as the core agent and the retrieval corpus as its
environment, using tailored rewards on format, retrieval, reasoning structure,
and diagnostic accuracy, thereby evolving the agentic RAG policy from
large-scale data through RL.
Experiments demonstrate that our end-to-end agentic RL training framework
consistently outperforms prompt-engineering and training-free RAG approaches
across multiple data centers. After training, Deep-DxSearch achieves
substantial gains in diagnostic accuracy, surpassing strong diagnostic
baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks
for both common and rare disease diagnosis under in-distribution and
out-of-distribution settings. Moreover, ablation studies on reward design and
retrieval corpus components confirm their critical roles, underscoring the
uniqueness and effectiveness of our approach compared with traditional
implementations. Finally, case studies and interpretability analyses highlight
improvements in Deep-DxSearch's diagnostic policy, providing deeper insight
into its performance gains and supporting clinicians in delivering more
reliable and precise preliminary diagnoses. See
https://github.com/MAGIC-AI4Med/Deep-DxSearch.