Diagnóstico Diferencial de Enfermedades Raras con Modelos de Lenguaje a Gran Escala: Desde Actinomicosis Abdominal hasta la Enfermedad de Wilson

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en el diagnóstico de enfermedades. Sin embargo, su eficacia en la identificación de enfermedades más raras, que son inherentemente más difíciles de diagnosticar, sigue siendo una cuestión abierta. El rendimiento en enfermedades raras es crítico dado el uso creciente de los LLMs en entornos de atención médica. Esto es especialmente cierto si un médico de atención primaria necesita realizar un pronóstico menos común basado únicamente en una conversación con el paciente para poder tomar el siguiente paso adecuado. Con este fin, varios sistemas de apoyo a la toma de decisiones clínicas están diseñados para ayudar a los proveedores en la identificación de enfermedades raras. Sin embargo, su utilidad es limitada debido a su falta de conocimiento sobre trastornos comunes y su dificultad de uso. En este artículo, proponemos RareScale para combinar el conocimiento de los LLMs con sistemas expertos. Utilizamos conjuntamente un sistema experto y un LLM para simular conversaciones sobre enfermedades raras. Estos datos se utilizan para entrenar un modelo predictor de candidatos para enfermedades raras. Los candidatos generados por este modelo más pequeño se utilizan como entradas adicionales para un LLM de caja negra con el fin de realizar el diagnóstico diferencial final. De esta manera, RareScale permite un equilibrio entre diagnósticos raros y comunes. Presentamos resultados en más de 575 enfermedades raras, comenzando con Actinomicosis Abdominal y terminando con la Enfermedad de Wilson. Nuestro enfoque mejora significativamente el rendimiento base de los LLMs de caja negra en más de un 17% en precisión Top-5. También encontramos que nuestro rendimiento en la generación de candidatos es alto (por ejemplo, 88.8% en conversaciones generadas por gpt-4o).

English

Large language models (LLMs) have demonstrated impressive capabilities in disease diagnosis. However, their effectiveness in identifying rarer diseases, which are inherently more challenging to diagnose, remains an open question. Rare disease performance is critical with the increasing use of LLMs in healthcare settings. This is especially true if a primary care physician needs to make a rarer prognosis from only a patient conversation so that they can take the appropriate next step. To that end, several clinical decision support systems are designed to support providers in rare disease identification. Yet their utility is limited due to their lack of knowledge of common disorders and difficulty of use. In this paper, we propose RareScale to combine the knowledge LLMs with expert systems. We use jointly use an expert system and LLM to simulate rare disease chats. This data is used to train a rare disease candidate predictor model. Candidates from this smaller model are then used as additional inputs to black-box LLM to make the final differential diagnosis. Thus, RareScale allows for a balance between rare and common diagnoses. We present results on over 575 rare diseases, beginning with Abdominal Actinomycosis and ending with Wilson's Disease. Our approach significantly improves the baseline performance of black-box LLMs by over 17% in Top-5 accuracy. We also find that our candidate generation performance is high (e.g. 88.8% on gpt-4o generated chats).

Diagnóstico Diferencial de Enfermedades Raras con Modelos de Lenguaje a Gran Escala: Desde Actinomicosis Abdominal hasta la Enfermedad de Wilson

Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease

Resumen

Support