ChatPaper.aiChatPaper

Un Sistema Agéntico para el Diagnóstico de Enfermedades Raras con Razonamiento Trazable

An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

June 25, 2025
Autores: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI

Resumen

Las enfermedades raras afectan colectivamente a más de 300 millones de personas en todo el mundo, sin embargo, el diagnóstico oportuno y preciso sigue siendo un desafío persistente. Esto se debe en gran medida a su heterogeneidad clínica, la baja prevalencia individual y el limitado conocimiento que la mayoría de los clínicos tienen sobre estas condiciones. Aquí presentamos DeepRare, el primer sistema agente de diagnóstico de enfermedades raras impulsado por un modelo de lenguaje de gran escala (LLM, por sus siglas en inglés), capaz de procesar entradas clínicas heterogéneas. El sistema genera hipótesis diagnósticas clasificadas para enfermedades raras, cada una acompañada de una cadena de razonamiento transparente que vincula los pasos analíticos intermedios con evidencia médica verificable. DeepRare consta de tres componentes clave: un host central con un módulo de memoria a largo plazo; servidores de agentes especializados responsables de tareas analíticas específicas de dominio, que integran más de 40 herramientas especializadas y fuentes de conocimiento médico actualizadas a escala web, garantizando acceso a la información clínica más reciente. Este diseño modular y escalable permite un razonamiento diagnóstico complejo mientras mantiene la trazabilidad y adaptabilidad. Evaluamos DeepRare en ocho conjuntos de datos. El sistema demuestra un rendimiento diagnóstico excepcional entre 2,919 enfermedades, logrando un 100% de precisión para 1,013 enfermedades. En evaluaciones basadas en HPO, DeepRare supera significativamente a otros 15 métodos, como herramientas de diagnóstico bioinformático tradicionales, LLMs y otros sistemas agentes, alcanzando un puntaje promedio Recall@1 del 57.18% y superando al segundo mejor método (Reasoning LLM) por un margen sustancial de 23.79 puntos porcentuales. Para escenarios de entrada multimodal, DeepRare alcanza un 70.60% en Recall@1 en comparación con el 53.20% de Exomiser en 109 casos. La verificación manual de las cadenas de razonamiento por expertos clínicos alcanza un 95.40% de concordancia. Además, el sistema DeepRare se ha implementado como una aplicación web fácil de usar en http://raredx.cn/doctor.
English
Rare diseases collectively affect over 300 million individuals worldwide, yet timely and accurate diagnosis remains a pervasive challenge. This is largely due to their clinical heterogeneity, low individual prevalence, and the limited familiarity most clinicians have with rare conditions. Here, we introduce DeepRare, the first rare disease diagnosis agentic system powered by a large language model (LLM), capable of processing heterogeneous clinical inputs. The system generates ranked diagnostic hypotheses for rare diseases, each accompanied by a transparent chain of reasoning that links intermediate analytic steps to verifiable medical evidence. DeepRare comprises three key components: a central host with a long-term memory module; specialized agent servers responsible for domain-specific analytical tasks integrating over 40 specialized tools and web-scale, up-to-date medical knowledge sources, ensuring access to the most current clinical information. This modular and scalable design enables complex diagnostic reasoning while maintaining traceability and adaptability. We evaluate DeepRare on eight datasets. The system demonstrates exceptional diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013 diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15 methods, like traditional bioinformatics diagnostic tools, LLMs, and other agentic systems, achieving an average Recall@1 score of 57.18% and surpassing the second-best method (Reasoning LLM) by a substantial margin of 23.79 percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of reasoning chains by clinical experts achieves 95.40% agreements. Furthermore, the DeepRare system has been implemented as a user-friendly web application http://raredx.cn/doctor.
PDF51June 27, 2025