Diagnostic différentiel des maladies rares à grande échelle avec les modèles de langage étendus : De l'actinomycose abdominale à la maladie de Wilson

papers.abstract

Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes dans le diagnostic des maladies. Cependant, leur efficacité à identifier des maladies plus rares, qui sont intrinsèquement plus difficiles à diagnostiquer, reste une question ouverte. La performance dans le domaine des maladies rares est cruciale avec l'utilisation croissante des LLMs dans les contextes de soins de santé. Cela est particulièrement vrai si un médecin généraliste doit établir un pronostic plus rare à partir d'une simple conversation avec un patient afin de prendre la prochaine étape appropriée. À cette fin, plusieurs systèmes d'aide à la décision clinique sont conçus pour soutenir les professionnels dans l'identification des maladies rares. Pourtant, leur utilité est limitée en raison de leur manque de connaissances sur les troubles courants et de leur difficulté d'utilisation. Dans cet article, nous proposons RareScale pour combiner les connaissances des LLMs avec des systèmes experts. Nous utilisons conjointement un système expert et un LLM pour simuler des conversations sur les maladies rares. Ces données sont utilisées pour entraîner un modèle de prédiction de candidats pour les maladies rares. Les candidats issus de ce modèle plus petit sont ensuite utilisés comme entrées supplémentaires à un LLM en boîte noire pour établir le diagnostic différentiel final. Ainsi, RareScale permet un équilibre entre les diagnostics rares et courants. Nous présentons des résultats sur plus de 575 maladies rares, commençant par l'Actinomycose abdominale et se terminant par la maladie de Wilson. Notre approche améliore significativement la performance de base des LLMs en boîte noire de plus de 17 % en précision Top-5. Nous constatons également que notre performance en génération de candidats est élevée (par exemple, 88,8 % sur les chats générés par gpt-4o).

English

Large language models (LLMs) have demonstrated impressive capabilities in disease diagnosis. However, their effectiveness in identifying rarer diseases, which are inherently more challenging to diagnose, remains an open question. Rare disease performance is critical with the increasing use of LLMs in healthcare settings. This is especially true if a primary care physician needs to make a rarer prognosis from only a patient conversation so that they can take the appropriate next step. To that end, several clinical decision support systems are designed to support providers in rare disease identification. Yet their utility is limited due to their lack of knowledge of common disorders and difficulty of use. In this paper, we propose RareScale to combine the knowledge LLMs with expert systems. We use jointly use an expert system and LLM to simulate rare disease chats. This data is used to train a rare disease candidate predictor model. Candidates from this smaller model are then used as additional inputs to black-box LLM to make the final differential diagnosis. Thus, RareScale allows for a balance between rare and common diagnoses. We present results on over 575 rare diseases, beginning with Abdominal Actinomycosis and ending with Wilson's Disease. Our approach significantly improves the baseline performance of black-box LLMs by over 17% in Top-5 accuracy. We also find that our candidate generation performance is high (e.g. 88.8% on gpt-4o generated chats).

Diagnostic différentiel des maladies rares à grande échelle avec les modèles de langage étendus : De l'actinomycose abdominale à la maladie de Wilson

Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease

papers.abstract

Support