Un système agentique pour le diagnostic des maladies rares avec raisonnement traçable
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
June 25, 2025
Auteurs: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI
Résumé
Les maladies rares affectent collectivement plus de 300 millions de personnes dans le monde, mais un diagnostic rapide et précis reste un défi majeur. Cela est principalement dû à leur hétérogénéité clinique, à leur faible prévalence individuelle et à la connaissance limitée que la plupart des cliniciens ont de ces affections. Nous présentons ici DeepRare, le premier système agentique de diagnostic des maladies rares alimenté par un modèle de langage à grande échelle (LLM), capable de traiter des données cliniques hétérogènes. Le système génère des hypothèses diagnostiques hiérarchisées pour les maladies rares, chacune accompagnée d'une chaîne de raisonnement transparente qui relie les étapes analytiques intermédiaires à des preuves médicales vérifiables.
DeepRare se compose de trois éléments clés : un hôte central doté d'un module de mémoire à long terme ; des serveurs agents spécialisés responsables de tâches analytiques spécifiques à un domaine, intégrant plus de 40 outils spécialisés et des sources de connaissances médicales à l'échelle du web et à jour, garantissant ainsi l'accès aux informations cliniques les plus récentes. Cette conception modulaire et évolutive permet un raisonnement diagnostique complexe tout en maintenant la traçabilité et l'adaptabilité. Nous évaluons DeepRare sur huit ensembles de données. Le système démontre une performance diagnostique exceptionnelle parmi 2 919 maladies, atteignant une précision de 100 % pour 1 013 maladies. Dans les évaluations basées sur HPO, DeepRare surpasse significativement 15 autres méthodes, telles que les outils de diagnostic bioinformatiques traditionnels, les LLM et d'autres systèmes agentiques, obtenant un score moyen Recall@1 de 57,18 % et dépassant la deuxième meilleure méthode (Reasoning LLM) par une marge substantielle de 23,79 points de pourcentage. Pour les scénarios d'entrée multi-modaux, DeepRare atteint 70,60 % à Recall@1 contre 53,20 % pour Exomiser dans 109 cas. La vérification manuelle des chaînes de raisonnement par des experts cliniques atteint un taux d'accord de 95,40 %. Par ailleurs, le système DeepRare a été implémenté sous la forme d'une application web conviviale accessible à l'adresse http://raredx.cn/doctor.
English
Rare diseases collectively affect over 300 million individuals worldwide, yet
timely and accurate diagnosis remains a pervasive challenge. This is largely
due to their clinical heterogeneity, low individual prevalence, and the limited
familiarity most clinicians have with rare conditions. Here, we introduce
DeepRare, the first rare disease diagnosis agentic system powered by a large
language model (LLM), capable of processing heterogeneous clinical inputs. The
system generates ranked diagnostic hypotheses for rare diseases, each
accompanied by a transparent chain of reasoning that links intermediate
analytic steps to verifiable medical evidence.
DeepRare comprises three key components: a central host with a long-term
memory module; specialized agent servers responsible for domain-specific
analytical tasks integrating over 40 specialized tools and web-scale,
up-to-date medical knowledge sources, ensuring access to the most current
clinical information. This modular and scalable design enables complex
diagnostic reasoning while maintaining traceability and adaptability. We
evaluate DeepRare on eight datasets. The system demonstrates exceptional
diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013
diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15
methods, like traditional bioinformatics diagnostic tools, LLMs, and other
agentic systems, achieving an average Recall@1 score of 57.18% and surpassing
the second-best method (Reasoning LLM) by a substantial margin of 23.79
percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at
Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of
reasoning chains by clinical experts achieves 95.40% agreements. Furthermore,
the DeepRare system has been implemented as a user-friendly web application
http://raredx.cn/doctor.