Um Sistema Agente para Diagnóstico de Doenças Raras com Raciocínio Rastreável
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning
June 25, 2025
Autores: Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
cs.AI
Resumo
As doenças raras afetam coletivamente mais de 300 milhões de indivíduos em todo o mundo, mas o diagnóstico oportuno e preciso continua sendo um desafio persistente. Isso se deve em grande parte à sua heterogeneidade clínica, à baixa prevalência individual e ao conhecimento limitado que a maioria dos clínicos tem sobre essas condições. Aqui, apresentamos o DeepRare, o primeiro sistema agente de diagnóstico de doenças raras impulsionado por um modelo de linguagem de grande escala (LLM), capaz de processar entradas clínicas heterogêneas. O sistema gera hipóteses diagnósticas classificadas para doenças raras, cada uma acompanhada por uma cadeia de raciocínio transparente que vincula etapas analíticas intermediárias a evidências médicas verificáveis.
O DeepRare é composto por três componentes principais: um host central com um módulo de memória de longo prazo; servidores de agentes especializados responsáveis por tarefas analíticas específicas de domínio, integrando mais de 40 ferramentas especializadas e fontes de conhecimento médico em escala da web e atualizadas, garantindo acesso às informações clínicas mais recentes. Esse design modular e escalável permite raciocínio diagnóstico complexo, mantendo rastreabilidade e adaptabilidade. Avaliamos o DeepRare em oito conjuntos de dados. O sistema demonstra desempenho diagnóstico excepcional entre 2.919 doenças, alcançando 100% de precisão para 1.013 doenças. Em avaliações baseadas em HPO, o DeepRare supera significativamente outros 15 métodos, como ferramentas de diagnóstico bioinformático tradicionais, LLMs e outros sistemas agentes, alcançando uma pontuação média Recall@1 de 57,18% e superando o segundo melhor método (Reasoning LLM) por uma margem substancial de 23,79 pontos percentuais. Para cenários de entrada multimodal, o DeepRare alcança 70,60% no Recall@1 em comparação com 53,20% do Exomiser em 109 casos. A verificação manual das cadeias de raciocínio por especialistas clínicos alcança 95,40% de concordância. Além disso, o sistema DeepRare foi implementado como um aplicativo web amigável em http://raredx.cn/doctor.
English
Rare diseases collectively affect over 300 million individuals worldwide, yet
timely and accurate diagnosis remains a pervasive challenge. This is largely
due to their clinical heterogeneity, low individual prevalence, and the limited
familiarity most clinicians have with rare conditions. Here, we introduce
DeepRare, the first rare disease diagnosis agentic system powered by a large
language model (LLM), capable of processing heterogeneous clinical inputs. The
system generates ranked diagnostic hypotheses for rare diseases, each
accompanied by a transparent chain of reasoning that links intermediate
analytic steps to verifiable medical evidence.
DeepRare comprises three key components: a central host with a long-term
memory module; specialized agent servers responsible for domain-specific
analytical tasks integrating over 40 specialized tools and web-scale,
up-to-date medical knowledge sources, ensuring access to the most current
clinical information. This modular and scalable design enables complex
diagnostic reasoning while maintaining traceability and adaptability. We
evaluate DeepRare on eight datasets. The system demonstrates exceptional
diagnostic performance among 2,919 diseases, achieving 100% accuracy for 1013
diseases. In HPO-based evaluations, DeepRare significantly outperforms other 15
methods, like traditional bioinformatics diagnostic tools, LLMs, and other
agentic systems, achieving an average Recall@1 score of 57.18% and surpassing
the second-best method (Reasoning LLM) by a substantial margin of 23.79
percentage points. For multi-modal input scenarios, DeepRare achieves 70.60% at
Recall@1 compared to Exomiser's 53.20% in 109 cases. Manual verification of
reasoning chains by clinical experts achieves 95.40% agreements. Furthermore,
the DeepRare system has been implemented as a user-friendly web application
http://raredx.cn/doctor.