トレーサブルな推論を備えた希少疾患診断のためのエージェントシステム
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
June 25, 2025
著者: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI
要旨
希少疾患は全世界で3億人以上の患者に影響を及ぼしているが、タイムリーかつ正確な診断は依然として広範な課題となっている。これは主に、臨床的な多様性、個々の疾患の低い有病率、そしてほとんどの臨床医が希少疾患に精通していないことに起因している。本論文では、大規模言語モデル(LLM)を基盤とした初の希少疾患診断エージェントシステム「DeepRare」を紹介する。このシステムは、異種混在の臨床データを処理し、希少疾患に対するランク付けされた診断仮説を生成する。各仮説には、中間的な分析ステップを検証可能な医学的証拠に結びつける透明性のある推論チェーンが付随する。
DeepRareは、長期的な記憶モジュールを備えた中央ホストと、40以上の専門ツールとウェブスケールの最新医療知識源を統合したドメイン固有の分析タスクを担当する専門エージェントサーバーという3つの主要コンポーネントで構成されている。これにより、最新の臨床情報へのアクセスが保証される。このモジュール化されたスケーラブルな設計により、複雑な診断推論を行いながらも、トレーサビリティと適応性を維持することが可能である。我々はDeepRareを8つのデータセットで評価した。システムは2,919の疾患において卓越した診断性能を示し、1,013の疾患で100%の精度を達成した。HPOベースの評価では、DeepRareは従来のバイオインフォマティクス診断ツール、LLM、および他のエージェントシステムを含む15の手法を大幅に上回り、平均Recall@1スコア57.18%を達成し、2位の手法(Reasoning LLM)を23.79ポイントの大差で凌駕した。マルチモーダル入力シナリオでは、DeepRareは109症例においてRecall@1で70.60%を達成し、Exomiserの53.20%を上回った。臨床専門家による推論チェーンの手動検証では、95.40%の一致率を達成した。さらに、DeepRareシステムはユーザーフレンドリーなウェブアプリケーションとして実装されており、http://raredx.cn/doctorで利用可能である。
English
Rare diseases collectively affect over 300 million individuals worldwide, yet
timely and accurate diagnosis remains a pervasive challenge. This is largely
due to their clinical heterogeneity, low individual prevalence, and the limited
familiarity most clinicians have with rare conditions. Here, we introduce
DeepRare, the first rare disease diagnosis agentic system powered by a large
language model (LLM), capable of processing heterogeneous clinical inputs. The
system generates ranked diagnostic hypotheses for rare diseases, each
accompanied by a transparent chain of reasoning that links intermediate
analytic steps to verifiable medical evidence.
DeepRare comprises three key components: a central host with a long-term
memory module; specialized agent servers responsible for domain-specific
analytical tasks integrating over 40 specialized tools and web-scale,
up-to-date medical knowledge sources, ensuring access to the most current
clinical information. This modular and scalable design enables complex
diagnostic reasoning while maintaining traceability and adaptability. We
evaluate DeepRare on eight datasets. The system demonstrates exceptional
diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013
diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15
methods, like traditional bioinformatics diagnostic tools, LLMs, and other
agentic systems, achieving an average Recall@1 score of 57.18% and surpassing
the second-best method (Reasoning LLM) by a substantial margin of 23.79
percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at
Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of
reasoning chains by clinical experts achieves 95.40% agreements. Furthermore,
the DeepRare system has been implemented as a user-friendly web application
http://raredx.cn/doctor.