Un Sistema Agéntico para el Diagnóstico de Enfermedades Raras con Razonamiento Trazable
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
June 25, 2025
Autores: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI
Resumen
Las enfermedades raras afectan colectivamente a más de 300 millones de personas en todo el mundo, sin embargo, el diagnóstico oportuno y preciso sigue siendo un desafío persistente. Esto se debe en gran medida a su heterogeneidad clínica, la baja prevalencia individual y el limitado conocimiento que la mayoría de los clínicos tienen sobre estas condiciones. Aquí presentamos DeepRare, el primer sistema agente de diagnóstico de enfermedades raras impulsado por un modelo de lenguaje de gran escala (LLM, por sus siglas en inglés), capaz de procesar entradas clínicas heterogéneas. El sistema genera hipótesis diagnósticas clasificadas para enfermedades raras, cada una acompañada de una cadena de razonamiento transparente que vincula los pasos analíticos intermedios con evidencia médica verificable.
DeepRare consta de tres componentes clave: un host central con un módulo de memoria a largo plazo; servidores de agentes especializados responsables de tareas analíticas específicas de dominio, que integran más de 40 herramientas especializadas y fuentes de conocimiento médico actualizadas a escala web, garantizando acceso a la información clínica más reciente. Este diseño modular y escalable permite un razonamiento diagnóstico complejo mientras mantiene la trazabilidad y adaptabilidad. Evaluamos DeepRare en ocho conjuntos de datos. El sistema demuestra un rendimiento diagnóstico excepcional entre 2,919 enfermedades, logrando un 100% de precisión para 1,013 enfermedades. En evaluaciones basadas en HPO, DeepRare supera significativamente a otros 15 métodos, como herramientas de diagnóstico bioinformático tradicionales, LLMs y otros sistemas agentes, alcanzando un puntaje promedio Recall@1 del 57.18% y superando al segundo mejor método (Reasoning LLM) por un margen sustancial de 23.79 puntos porcentuales. Para escenarios de entrada multimodal, DeepRare alcanza un 70.60% en Recall@1 en comparación con el 53.20% de Exomiser en 109 casos. La verificación manual de las cadenas de razonamiento por expertos clínicos alcanza un 95.40% de concordancia. Además, el sistema DeepRare se ha implementado como una aplicación web fácil de usar en http://raredx.cn/doctor.
English
Rare diseases collectively affect over 300 million individuals worldwide, yet
timely and accurate diagnosis remains a pervasive challenge. This is largely
due to their clinical heterogeneity, low individual prevalence, and the limited
familiarity most clinicians have with rare conditions. Here, we introduce
DeepRare, the first rare disease diagnosis agentic system powered by a large
language model (LLM), capable of processing heterogeneous clinical inputs. The
system generates ranked diagnostic hypotheses for rare diseases, each
accompanied by a transparent chain of reasoning that links intermediate
analytic steps to verifiable medical evidence.
DeepRare comprises three key components: a central host with a long-term
memory module; specialized agent servers responsible for domain-specific
analytical tasks integrating over 40 specialized tools and web-scale,
up-to-date medical knowledge sources, ensuring access to the most current
clinical information. This modular and scalable design enables complex
diagnostic reasoning while maintaining traceability and adaptability. We
evaluate DeepRare on eight datasets. The system demonstrates exceptional
diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013
diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15
methods, like traditional bioinformatics diagnostic tools, LLMs, and other
agentic systems, achieving an average Recall@1 score of 57.18% and surpassing
the second-best method (Reasoning LLM) by a substantial margin of 23.79
percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at
Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of
reasoning chains by clinical experts achieves 95.40% agreements. Furthermore,
the DeepRare system has been implemented as a user-friendly web application
http://raredx.cn/doctor.