Diagnostic différentiel des maladies rares à grande échelle avec les modèles de langage étendus : De l'actinomycose abdominale à la maladie de Wilson
Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease
February 20, 2025
Auteurs: Elliot Schumacher, Dhruv Naik, Anitha Kannan
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes dans le diagnostic des maladies. Cependant, leur efficacité à identifier des maladies plus rares, qui sont intrinsèquement plus difficiles à diagnostiquer, reste une question ouverte. La performance dans le domaine des maladies rares est cruciale avec l'utilisation croissante des LLMs dans les contextes de soins de santé. Cela est particulièrement vrai si un médecin généraliste doit établir un pronostic plus rare à partir d'une simple conversation avec un patient afin de prendre la prochaine étape appropriée. À cette fin, plusieurs systèmes d'aide à la décision clinique sont conçus pour soutenir les professionnels dans l'identification des maladies rares. Pourtant, leur utilité est limitée en raison de leur manque de connaissances sur les troubles courants et de leur difficulté d'utilisation.
Dans cet article, nous proposons RareScale pour combiner les connaissances des LLMs avec des systèmes experts. Nous utilisons conjointement un système expert et un LLM pour simuler des conversations sur les maladies rares. Ces données sont utilisées pour entraîner un modèle de prédiction de candidats pour les maladies rares. Les candidats issus de ce modèle plus petit sont ensuite utilisés comme entrées supplémentaires à un LLM en boîte noire pour établir le diagnostic différentiel final. Ainsi, RareScale permet un équilibre entre les diagnostics rares et courants. Nous présentons des résultats sur plus de 575 maladies rares, commençant par l'Actinomycose abdominale et se terminant par la maladie de Wilson. Notre approche améliore significativement la performance de base des LLMs en boîte noire de plus de 17 % en précision Top-5. Nous constatons également que notre performance en génération de candidats est élevée (par exemple, 88,8 % sur les chats générés par gpt-4o).
English
Large language models (LLMs) have demonstrated impressive capabilities in
disease diagnosis. However, their effectiveness in identifying rarer diseases,
which are inherently more challenging to diagnose, remains an open question.
Rare disease performance is critical with the increasing use of LLMs in
healthcare settings. This is especially true if a primary care physician needs
to make a rarer prognosis from only a patient conversation so that they can
take the appropriate next step. To that end, several clinical decision support
systems are designed to support providers in rare disease identification. Yet
their utility is limited due to their lack of knowledge of common disorders and
difficulty of use.
In this paper, we propose RareScale to combine the knowledge LLMs with expert
systems. We use jointly use an expert system and LLM to simulate rare disease
chats. This data is used to train a rare disease candidate predictor model.
Candidates from this smaller model are then used as additional inputs to
black-box LLM to make the final differential diagnosis. Thus, RareScale allows
for a balance between rare and common diagnoses. We present results on over 575
rare diseases, beginning with Abdominal Actinomycosis and ending with Wilson's
Disease. Our approach significantly improves the baseline performance of
black-box LLMs by over 17% in Top-5 accuracy. We also find that our candidate
generation performance is high (e.g. 88.8% on gpt-4o generated chats).Summary
AI-Generated Summary