Un Sistema Agente per la Diagnosi di Malattie Rare con Ragionamento Tracciabile
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
June 25, 2025
Autori: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI
Abstract
Le malattie rare colpiscono collettivamente oltre 300 milioni di individui in tutto il mondo, eppure una diagnosi tempestiva e accurata rimane una sfida pervasiva. Ciò è dovuto principalmente alla loro eterogeneità clinica, alla bassa prevalenza individuale e alla limitata familiarità che la maggior parte dei clinici ha con queste condizioni. Qui presentiamo DeepRare, il primo sistema agente per la diagnosi di malattie rare alimentato da un modello linguistico di grandi dimensioni (LLM), in grado di elaborare input clinici eterogenei. Il sistema genera ipotesi diagnostiche classificate per le malattie rare, ciascuna accompagnata da una catena di ragionamento trasparente che collega i passaggi analitici intermedi a evidenze mediche verificabili.
DeepRare è composto da tre componenti chiave: un host centrale con un modulo di memoria a lungo termine; server agente specializzati responsabili di compiti analitici specifici per dominio, che integrano oltre 40 strumenti specializzati e fonti di conoscenza medica su scala web e aggiornate, garantendo l'accesso alle informazioni cliniche più recenti. Questo design modulare e scalabile consente un ragionamento diagnostico complesso mantenendo tracciabilità e adattabilità. Valutiamo DeepRare su otto dataset. Il sistema dimostra prestazioni diagnostiche eccezionali tra 2.919 malattie, raggiungendo il 100% di accuratezza per 1.013 malattie. Nelle valutazioni basate su HPO, DeepRare supera significativamente altri 15 metodi, come strumenti diagnostici bioinformatici tradizionali, LLM e altri sistemi agenti, raggiungendo un punteggio medio Recall@1 del 57,18% e superando il secondo miglior metodo (Reasoning LLM) con un margine sostanziale di 23,79 punti percentuali. Per scenari di input multi-modale, DeepRare raggiunge il 70,60% in Recall@1 rispetto al 53,20% di Exomiser in 109 casi. La verifica manuale delle catene di ragionamento da parte di esperti clinici raggiunge un accordo del 95,40%. Inoltre, il sistema DeepRare è stato implementato come un'applicazione web user-friendly all'indirizzo http://raredx.cn/doctor.
English
Rare diseases collectively affect over 300 million individuals worldwide, yet
timely and accurate diagnosis remains a pervasive challenge. This is largely
due to their clinical heterogeneity, low individual prevalence, and the limited
familiarity most clinicians have with rare conditions. Here, we introduce
DeepRare, the first rare disease diagnosis agentic system powered by a large
language model (LLM), capable of processing heterogeneous clinical inputs. The
system generates ranked diagnostic hypotheses for rare diseases, each
accompanied by a transparent chain of reasoning that links intermediate
analytic steps to verifiable medical evidence.
DeepRare comprises three key components: a central host with a long-term
memory module; specialized agent servers responsible for domain-specific
analytical tasks integrating over 40 specialized tools and web-scale,
up-to-date medical knowledge sources, ensuring access to the most current
clinical information. This modular and scalable design enables complex
diagnostic reasoning while maintaining traceability and adaptability. We
evaluate DeepRare on eight datasets. The system demonstrates exceptional
diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013
diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15
methods, like traditional bioinformatics diagnostic tools, LLMs, and other
agentic systems, achieving an average Recall@1 score of 57.18% and surpassing
the second-best method (Reasoning LLM) by a substantial margin of 23.79
percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at
Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of
reasoning chains by clinical experts achieves 95.40% agreements. Furthermore,
the DeepRare system has been implemented as a user-friendly web application
http://raredx.cn/doctor.