추적 가능한 추론을 통한 희귀질환 진단을 위한 에이전트 시스템
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
June 25, 2025
저자: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI
초록
희귀 질환은 전 세계적으로 3억 명 이상의 개인에게 영향을 미치지만, 적시에 정확한 진단은 여전히 만연한 과제로 남아 있습니다. 이는 주로 희귀 질환의 임상적 이질성, 낮은 개별 유병률, 그리고 대부분의 임상의가 희귀 질환에 대해 제한적으로 알고 있기 때문입니다. 본 연구에서는 대규모 언어 모델(LLM)로 구동되는 최초의 희귀 질환 진단 에이전트 시스템인 DeepRare를 소개합니다. 이 시스템은 이질적인 임상 입력을 처리할 수 있으며, 희귀 질환에 대한 순위가 매겨진 진단 가설을 생성하고, 각 가설은 검증 가능한 의학적 증거와 연결된 중간 분석 단계를 포함한 투명한 추론 체인을 제공합니다.
DeepRare는 세 가지 주요 구성 요소로 이루어져 있습니다: 장기 기억 모듈을 갖춘 중앙 호스트; 40개 이상의 전문 도구와 웹 규모의 최신 의학 지식 소스를 통합하여 도메인별 분석 작업을 담당하는 전문 에이전트 서버로, 이를 통해 최신 임상 정보에 접근할 수 있습니다. 이 모듈화되고 확장 가능한 설계는 복잡한 진단 추론을 가능하게 하면서도 추적 가능성과 적응성을 유지합니다. 우리는 DeepRare를 8개의 데이터셋에서 평가했습니다. 이 시스템은 2,919개 질환 중 1,013개 질환에서 100% 정확도를 달성하며 탁월한 진단 성능을 보여주었습니다. HPO 기반 평가에서 DeepRare는 전통적인 생물정보학 진단 도구, LLM, 그리고 다른 에이전트 시스템 등 15개 방법을 크게 능가하며, 평균 Recall@1 점수 57.18%를 달성하고 두 번째로 우수한 방법(Reasoning LLM)을 23.79%포인트 차이로 앞섰습니다. 다중 모드 입력 시나리오에서 DeepRare는 109개 사례에서 Exomiser의 53.20%에 비해 Recall@1에서 70.60%를 달성했습니다. 임상 전문가에 의한 추론 체인의 수동 검증은 95.40%의 일치율을 보였습니다. 또한, DeepRare 시스템은 사용자 친화적인 웹 애플리케이션(http://raredx.cn/doctor)으로 구현되었습니다.
English
Rare diseases collectively affect over 300 million individuals worldwide, yet
timely and accurate diagnosis remains a pervasive challenge. This is largely
due to their clinical heterogeneity, low individual prevalence, and the limited
familiarity most clinicians have with rare conditions. Here, we introduce
DeepRare, the first rare disease diagnosis agentic system powered by a large
language model (LLM), capable of processing heterogeneous clinical inputs. The
system generates ranked diagnostic hypotheses for rare diseases, each
accompanied by a transparent chain of reasoning that links intermediate
analytic steps to verifiable medical evidence.
DeepRare comprises three key components: a central host with a long-term
memory module; specialized agent servers responsible for domain-specific
analytical tasks integrating over 40 specialized tools and web-scale,
up-to-date medical knowledge sources, ensuring access to the most current
clinical information. This modular and scalable design enables complex
diagnostic reasoning while maintaining traceability and adaptability. We
evaluate DeepRare on eight datasets. The system demonstrates exceptional
diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013
diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15
methods, like traditional bioinformatics diagnostic tools, LLMs, and other
agentic systems, achieving an average Recall@1 score of 57.18% and surpassing
the second-best method (Reasoning LLM) by a substantial margin of 23.79
percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at
Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of
reasoning chains by clinical experts achieves 95.40% agreements. Furthermore,
the DeepRare system has been implemented as a user-friendly web application
http://raredx.cn/doctor.