Diagnóstico Diferencial de Doenças Raras com Modelos de Linguagem de Grande Escala: De Actinomicose Abdominal à Doença de Wilson
Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease
February 20, 2025
Autores: Elliot Schumacher, Dhruv Naik, Anitha Kannan
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) têm demonstrado capacidades impressionantes no diagnóstico de doenças. No entanto, sua eficácia na identificação de doenças mais raras, que são inerentemente mais desafiadoras de diagnosticar, permanece uma questão em aberto. O desempenho em doenças raras é crucial com o aumento do uso de LLMs em ambientes de saúde. Isso é especialmente verdadeiro se um médico de atenção primária precisa fazer um prognóstico mais raro a partir apenas de uma conversa com o paciente para que possam tomar o próximo passo apropriado. Com esse objetivo, vários sistemas de suporte à decisão clínica são projetados para auxiliar os profissionais na identificação de doenças raras. No entanto, sua utilidade é limitada devido à falta de conhecimento de distúrbios comuns e à dificuldade de uso.
Neste artigo, propomos o RareScale para combinar o conhecimento dos LLMs com sistemas especialistas. Utilizamos em conjunto um sistema especialista e um LLM para simular conversas sobre doenças raras. Esses dados são usados para treinar um modelo preditor de candidatos a doenças raras. Os candidatos deste modelo menor são então usados como entradas adicionais para o LLM de caixa-preta para fazer o diagnóstico diferencial final. Assim, o RareScale permite um equilíbrio entre diagnósticos raros e comuns. Apresentamos resultados sobre mais de 575 doenças raras, começando com Actinomicose Abdominal e terminando com a Doença de Wilson. Nossa abordagem melhora significativamente o desempenho de referência dos LLMs de caixa-preta em mais de 17% na precisão do Top-5. Também constatamos que nosso desempenho na geração de candidatos é alto (por exemplo, 88,8% em conversas geradas pelo gpt-4o).
English
Large language models (LLMs) have demonstrated impressive capabilities in
disease diagnosis. However, their effectiveness in identifying rarer diseases,
which are inherently more challenging to diagnose, remains an open question.
Rare disease performance is critical with the increasing use of LLMs in
healthcare settings. This is especially true if a primary care physician needs
to make a rarer prognosis from only a patient conversation so that they can
take the appropriate next step. To that end, several clinical decision support
systems are designed to support providers in rare disease identification. Yet
their utility is limited due to their lack of knowledge of common disorders and
difficulty of use.
In this paper, we propose RareScale to combine the knowledge LLMs with expert
systems. We use jointly use an expert system and LLM to simulate rare disease
chats. This data is used to train a rare disease candidate predictor model.
Candidates from this smaller model are then used as additional inputs to
black-box LLM to make the final differential diagnosis. Thus, RareScale allows
for a balance between rare and common diagnoses. We present results on over 575
rare diseases, beginning with Abdominal Actinomycosis and ending with Wilson's
Disease. Our approach significantly improves the baseline performance of
black-box LLMs by over 17% in Top-5 accuracy. We also find that our candidate
generation performance is high (e.g. 88.8% on gpt-4o generated chats).Summary
AI-Generated Summary