Diagnóstico Diferencial de Enfermedades Raras con Modelos de Lenguaje a Gran Escala: Desde Actinomicosis Abdominal hasta la Enfermedad de Wilson
Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease
February 20, 2025
Autores: Elliot Schumacher, Dhruv Naik, Anitha Kannan
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en el diagnóstico de enfermedades. Sin embargo, su eficacia en la identificación de enfermedades más raras, que son inherentemente más difíciles de diagnosticar, sigue siendo una cuestión abierta. El rendimiento en enfermedades raras es crítico dado el uso creciente de los LLMs en entornos de atención médica. Esto es especialmente cierto si un médico de atención primaria necesita realizar un pronóstico menos común basado únicamente en una conversación con el paciente para poder tomar el siguiente paso adecuado. Con este fin, varios sistemas de apoyo a la toma de decisiones clínicas están diseñados para ayudar a los proveedores en la identificación de enfermedades raras. Sin embargo, su utilidad es limitada debido a su falta de conocimiento sobre trastornos comunes y su dificultad de uso.
En este artículo, proponemos RareScale para combinar el conocimiento de los LLMs con sistemas expertos. Utilizamos conjuntamente un sistema experto y un LLM para simular conversaciones sobre enfermedades raras. Estos datos se utilizan para entrenar un modelo predictor de candidatos para enfermedades raras. Los candidatos generados por este modelo más pequeño se utilizan como entradas adicionales para un LLM de caja negra con el fin de realizar el diagnóstico diferencial final. De esta manera, RareScale permite un equilibrio entre diagnósticos raros y comunes. Presentamos resultados en más de 575 enfermedades raras, comenzando con Actinomicosis Abdominal y terminando con la Enfermedad de Wilson. Nuestro enfoque mejora significativamente el rendimiento base de los LLMs de caja negra en más de un 17% en precisión Top-5. También encontramos que nuestro rendimiento en la generación de candidatos es alto (por ejemplo, 88.8% en conversaciones generadas por gpt-4o).
English
Large language models (LLMs) have demonstrated impressive capabilities in
disease diagnosis. However, their effectiveness in identifying rarer diseases,
which are inherently more challenging to diagnose, remains an open question.
Rare disease performance is critical with the increasing use of LLMs in
healthcare settings. This is especially true if a primary care physician needs
to make a rarer prognosis from only a patient conversation so that they can
take the appropriate next step. To that end, several clinical decision support
systems are designed to support providers in rare disease identification. Yet
their utility is limited due to their lack of knowledge of common disorders and
difficulty of use.
In this paper, we propose RareScale to combine the knowledge LLMs with expert
systems. We use jointly use an expert system and LLM to simulate rare disease
chats. This data is used to train a rare disease candidate predictor model.
Candidates from this smaller model are then used as additional inputs to
black-box LLM to make the final differential diagnosis. Thus, RareScale allows
for a balance between rare and common diagnoses. We present results on over 575
rare diseases, beginning with Abdominal Actinomycosis and ending with Wilson's
Disease. Our approach significantly improves the baseline performance of
black-box LLMs by over 17% in Top-5 accuracy. We also find that our candidate
generation performance is high (e.g. 88.8% on gpt-4o generated chats).Summary
AI-Generated Summary