Ein agentenbasiertes System zur Diagnose seltener Krankheiten mit nachvollziehbarer Argumentation
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
June 25, 2025
Autoren: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI
Zusammenfassung
Seltene Erkrankungen betreffen weltweit insgesamt über 300 Millionen Menschen, doch eine zeitnahe und genaue Diagnose bleibt eine weit verbreitete Herausforderung. Dies ist größtenteils auf ihre klinische Heterogenität, die geringe individuelle Prävalenz und die begrenzte Vertrautheit der meisten Kliniker mit seltenen Erkrankungen zurückzuführen. Hier stellen wir DeepRare vor, das erste Diagnosesystem für seltene Erkrankungen, das von einem großen Sprachmodell (LLM) angetrieben wird und in der Lage ist, heterogene klinische Eingaben zu verarbeiten. Das System generiert rangierte Diagnosehypothesen für seltene Erkrankungen, die jeweils von einer transparenten Begründungskette begleitet werden, die Zwischenschritte der Analyse mit überprüfbaren medizinischen Belegen verknüpft.
DeepRare besteht aus drei Schlüsselkomponenten: einem zentralen Host mit einem Langzeitgedächtnismodul; spezialisierten Agenten-Servern, die für domänenspezifische analytische Aufgaben verantwortlich sind und über 40 spezialisierte Tools sowie web-basierte, aktuelle medizinische Wissensquellen integrieren, um den Zugang zu den neuesten klinischen Informationen zu gewährleisten. Dieses modulare und skalierbare Design ermöglicht komplexe diagnostische Schlussfolgerungen bei gleichzeitiger Wahrung der Nachvollziehbarkeit und Anpassungsfähigkeit. Wir evaluieren DeepRare anhand von acht Datensätzen. Das System zeigt eine außergewöhnliche diagnostische Leistung bei 2.919 Erkrankungen und erreicht eine 100%ige Genauigkeit für 1.013 Erkrankungen. In HPO-basierten Auswertungen übertrifft DeepRare deutlich 15 andere Methoden, wie traditionelle bioinformatische Diagnosetools, LLMs und andere agentenbasierte Systeme, mit einem durchschnittlichen Recall@1-Wert von 57,18 % und übertrifft die zweitbeste Methode (Reasoning LLM) mit einem deutlichen Vorsprung von 23,79 Prozentpunkten. Für multimodale Eingabeszenarien erreicht DeepRare 70,60 % bei Recall@1 im Vergleich zu Exomisers 53,20 % in 109 Fällen. Die manuelle Überprüfung der Begründungsketten durch klinische Experten ergibt eine Übereinstimmungsrate von 95,40 %. Darüber hinaus wurde das DeepRare-System als benutzerfreundliche Webanwendung unter http://raredx.cn/doctor implementiert.
English
Rare diseases collectively affect over 300 million individuals worldwide, yet
timely and accurate diagnosis remains a pervasive challenge. This is largely
due to their clinical heterogeneity, low individual prevalence, and the limited
familiarity most clinicians have with rare conditions. Here, we introduce
DeepRare, the first rare disease diagnosis agentic system powered by a large
language model (LLM), capable of processing heterogeneous clinical inputs. The
system generates ranked diagnostic hypotheses for rare diseases, each
accompanied by a transparent chain of reasoning that links intermediate
analytic steps to verifiable medical evidence.
DeepRare comprises three key components: a central host with a long-term
memory module; specialized agent servers responsible for domain-specific
analytical tasks integrating over 40 specialized tools and web-scale,
up-to-date medical knowledge sources, ensuring access to the most current
clinical information. This modular and scalable design enables complex
diagnostic reasoning while maintaining traceability and adaptability. We
evaluate DeepRare on eight datasets. The system demonstrates exceptional
diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013
diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15
methods, like traditional bioinformatics diagnostic tools, LLMs, and other
agentic systems, achieving an average Recall@1 score of 57.18% and surpassing
the second-best method (Reasoning LLM) by a substantial margin of 23.79
percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at
Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of
reasoning chains by clinical experts achieves 95.40% agreements. Furthermore,
the DeepRare system has been implemented as a user-friendly web application
http://raredx.cn/doctor.