Een Agentisch Systeem voor Diagnose van Zeldzame Ziekten met Traceerbare Redenering
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
June 25, 2025
Auteurs: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI
Samenvatting
Zeldzame ziekten treffen wereldwijd gezamenlijk meer dan 300 miljoen individuen, maar tijdige en accurate diagnose blijft een wijdverbreide uitdaging. Dit komt grotendeels door hun klinische heterogeniteit, lage individuele prevalentie en de beperkte bekendheid die de meeste clinici hebben met zeldzame aandoeningen. Hier introduceren we DeepRare, het eerste zeldzame ziekte-diagnose agentsysteem aangedreven door een groot taalmodel (LLM), dat in staat is om heterogene klinische invoer te verwerken. Het systeem genereert gerangschikte diagnostische hypothesen voor zeldzame ziekten, elk vergezeld van een transparante redeneerketen die tussenliggende analytische stappen koppelt aan verifieerbaar medisch bewijs.
DeepRare bestaat uit drie belangrijke componenten: een centrale host met een langetermijngeheugenmodule; gespecialiseerde agentservers die verantwoordelijk zijn voor domeinspecifieke analytische taken, waarbij meer dan 40 gespecialiseerde tools en web-schaal, up-to-date medische kennisbronnen worden geïntegreerd, waardoor toegang tot de meest actuele klinische informatie wordt gegarandeerd. Dit modulaire en schaalbare ontwerp maakt complexe diagnostische redenering mogelijk terwijl traceerbaarheid en aanpasbaarheid behouden blijven. We evalueren DeepRare op acht datasets. Het systeem toont uitzonderlijke diagnostische prestaties onder 2.919 ziekten, met een nauwkeurigheid van 100% voor 1013 ziekten. In HPO-gebaseerde evaluaties presteert DeepRare aanzienlijk beter dan 15 andere methoden, zoals traditionele bioinformatica-diagnosetools, LLM's en andere agentsystemen, met een gemiddelde Recall@1-score van 57,18% en overtreft het de op een na beste methode (Reasoning LLM) met een aanzienlijke marge van 23,79 procentpunten. Voor multi-modale invoerscenario's behaalt DeepRare 70,60% bij Recall@1 vergeleken met Exomiser's 53,20% in 109 gevallen. Handmatige verificatie van redeneerketens door klinische experts bereikt 95,40% overeenstemming. Bovendien is het DeepRare-systeem geïmplementeerd als een gebruiksvriendelijke webapplicatie http://raredx.cn/doctor.
English
Rare diseases collectively affect over 300 million individuals worldwide, yet
timely and accurate diagnosis remains a pervasive challenge. This is largely
due to their clinical heterogeneity, low individual prevalence, and the limited
familiarity most clinicians have with rare conditions. Here, we introduce
DeepRare, the first rare disease diagnosis agentic system powered by a large
language model (LLM), capable of processing heterogeneous clinical inputs. The
system generates ranked diagnostic hypotheses for rare diseases, each
accompanied by a transparent chain of reasoning that links intermediate
analytic steps to verifiable medical evidence.
DeepRare comprises three key components: a central host with a long-term
memory module; specialized agent servers responsible for domain-specific
analytical tasks integrating over 40 specialized tools and web-scale,
up-to-date medical knowledge sources, ensuring access to the most current
clinical information. This modular and scalable design enables complex
diagnostic reasoning while maintaining traceability and adaptability. We
evaluate DeepRare on eight datasets. The system demonstrates exceptional
diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013
diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15
methods, like traditional bioinformatics diagnostic tools, LLMs, and other
agentic systems, achieving an average Recall@1 score of 57.18% and surpassing
the second-best method (Reasoning LLM) by a substantial margin of 23.79
percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at
Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of
reasoning chains by clinical experts achieves 95.40% agreements. Furthermore,
the DeepRare system has been implemented as a user-friendly web application
http://raredx.cn/doctor.