Агентная система для диагностики редких заболеваний с отслеживаемой логикой рассуждений
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
June 25, 2025
Авторы: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI
Аннотация
Редкие заболевания в совокупности затрагивают более 300 миллионов человек по всему миру, однако своевременная и точная диагностика остается серьезной проблемой. Это во многом связано с их клинической гетерогенностью, низкой индивидуальной распространенностью и ограниченной осведомленностью большинства клиницистов о редких состояниях. В данной работе мы представляем DeepRare — первую агентную систему для диагностики редких заболеваний, основанную на крупной языковой модели (LLM), способную обрабатывать гетерогенные клинические данные. Система генерирует ранжированные диагностические гипотезы для редких заболеваний, каждая из которых сопровождается прозрачной цепочкой рассуждений, связывающей промежуточные аналитические шаги с проверяемыми медицинскими данными.
DeepRare состоит из трех ключевых компонентов: центрального узла с модулем долговременной памяти; специализированных агентных серверов, отвечающих за предметно-ориентированные аналитические задачи, интегрирующих более 40 специализированных инструментов и масштабируемых на уровне веба актуальных источников медицинских знаний, что обеспечивает доступ к самой современной клинической информации. Такая модульная и масштабируемая архитектура позволяет осуществлять сложное диагностическое рассуждение, сохраняя при этом прослеживаемость и адаптивность. Мы оцениваем DeepRare на восьми наборах данных. Система демонстрирует выдающуюся диагностическую производительность для 2 919 заболеваний, достигая 100% точности для 1 013 заболеваний. В оценках на основе HPO DeepRare значительно превосходит 15 других методов, таких как традиционные биоинформатические диагностические инструменты, LLM и другие агентные системы, достигая среднего показателя Recall@1 в 57,18% и опережая второй лучший метод (Reasoning LLM) на значительные 23,79 процентных пункта. Для сценариев с мультимодальными входными данными DeepRare достигает 70,60% по Recall@1 по сравнению с 53,20% у Exomiser в 109 случаях. Ручная проверка цепочек рассуждений клиническими экспертами показывает 95,40% согласия. Кроме того, система DeepRare реализована в виде удобного веб-приложения http://raredx.cn/doctor.
English
Rare diseases collectively affect over 300 million individuals worldwide, yet
timely and accurate diagnosis remains a pervasive challenge. This is largely
due to their clinical heterogeneity, low individual prevalence, and the limited
familiarity most clinicians have with rare conditions. Here, we introduce
DeepRare, the first rare disease diagnosis agentic system powered by a large
language model (LLM), capable of processing heterogeneous clinical inputs. The
system generates ranked diagnostic hypotheses for rare diseases, each
accompanied by a transparent chain of reasoning that links intermediate
analytic steps to verifiable medical evidence.
DeepRare comprises three key components: a central host with a long-term
memory module; specialized agent servers responsible for domain-specific
analytical tasks integrating over 40 specialized tools and web-scale,
up-to-date medical knowledge sources, ensuring access to the most current
clinical information. This modular and scalable design enables complex
diagnostic reasoning while maintaining traceability and adaptability. We
evaluate DeepRare on eight datasets. The system demonstrates exceptional
diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013
diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15
methods, like traditional bioinformatics diagnostic tools, LLMs, and other
agentic systems, achieving an average Recall@1 score of 57.18% and surpassing
the second-best method (Reasoning LLM) by a substantial margin of 23.79
percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at
Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of
reasoning chains by clinical experts achieves 95.40% agreements. Furthermore,
the DeepRare system has been implemented as a user-friendly web application
http://raredx.cn/doctor.