De differentiële diagnose van zeldzame ziekten met grootschalige taalmmodellen: Van abdominale actinomycose tot de ziekte van Wilson
Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease
February 20, 2025
Auteurs: Elliot Schumacher, Dhruv Naik, Anitha Kannan
cs.AI
Samenvatting
Grote taalmodelen (LLMs) hebben indrukwekkende capaciteiten getoond bij het diagnosticeren van ziekten. Hun effectiviteit bij het identificeren van zeldzamere ziekten, die van nature moeilijker te diagnosticeren zijn, blijft echter een open vraag. De prestaties bij zeldzame ziekten zijn cruciaal met de toenemende inzet van LLMs in gezondheidszorgomgevingen. Dit is vooral belangrijk als een huisarts een zeldzamere prognose moet stellen op basis van alleen een patiëntgesprek, zodat de juiste vervolgstappen kunnen worden genomen. Daartoe zijn verschillende klinische beslissingsondersteuningssystemen ontworpen om zorgverleners te ondersteunen bij het identificeren van zeldzame ziekten. Hun bruikbaarheid is echter beperkt vanwege hun gebrek aan kennis over veelvoorkomende aandoeningen en moeilijkheden in het gebruik.
In dit artikel stellen we RareScale voor om de kennis van LLMs te combineren met expertsystemen. We gebruiken gezamenlijk een expertsysteem en een LLM om gesprekken over zeldzame ziekten te simuleren. Deze gegevens worden gebruikt om een model te trainen dat kandidaten voor zeldzame ziekten voorspelt. De kandidaten van dit kleinere model worden vervolgens gebruikt als aanvullende invoer voor een black-box LLM om de uiteindelijke differentiële diagnose te stellen. Zo stelt RareScale een balans mogelijk tussen zeldzame en veelvoorkomende diagnoses. We presenteren resultaten voor meer dan 575 zeldzame ziekten, beginnend met Abdominale Actinomycose en eindigend met de Ziekte van Wilson. Onze aanpak verbetert de basisprestaties van black-box LLMs aanzienlijk met meer dan 17% in Top-5 nauwkeurigheid. We constateren ook dat onze kandidaatgeneratieprestaties hoog zijn (bijvoorbeeld 88,8% op gpt-4o gegenereerde gesprekken).
English
Large language models (LLMs) have demonstrated impressive capabilities in
disease diagnosis. However, their effectiveness in identifying rarer diseases,
which are inherently more challenging to diagnose, remains an open question.
Rare disease performance is critical with the increasing use of LLMs in
healthcare settings. This is especially true if a primary care physician needs
to make a rarer prognosis from only a patient conversation so that they can
take the appropriate next step. To that end, several clinical decision support
systems are designed to support providers in rare disease identification. Yet
their utility is limited due to their lack of knowledge of common disorders and
difficulty of use.
In this paper, we propose RareScale to combine the knowledge LLMs with expert
systems. We use jointly use an expert system and LLM to simulate rare disease
chats. This data is used to train a rare disease candidate predictor model.
Candidates from this smaller model are then used as additional inputs to
black-box LLM to make the final differential diagnosis. Thus, RareScale allows
for a balance between rare and common diagnoses. We present results on over 575
rare diseases, beginning with Abdominal Actinomycosis and ending with Wilson's
Disease. Our approach significantly improves the baseline performance of
black-box LLMs by over 17% in Top-5 accuracy. We also find that our candidate
generation performance is high (e.g. 88.8% on gpt-4o generated chats).Summary
AI-Generated Summary