Seltene Krankheiten differenzialdiagnostisch mit großen Sprachmodellen im großen Maßstab: Von abdominaler Aktinomykose bis hin zum Morbus Wilson
Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease
February 20, 2025
Autoren: Elliot Schumacher, Dhruv Naik, Anitha Kannan
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten in der Krankheitsdiagnose gezeigt. Ihre Effektivität bei der Identifizierung seltenerer Krankheiten, die von Natur aus schwieriger zu diagnostizieren sind, bleibt jedoch eine offene Frage. Die Leistung bei seltenen Krankheiten ist angesichts der zunehmenden Nutzung von LLMs im Gesundheitswesen von entscheidender Bedeutung. Dies gilt insbesondere, wenn ein Hausarzt eine seltenere Prognose allein auf der Grundlage eines Patientengesprächs stellen muss, um den nächsten angemessenen Schritt einzuleiten. Zu diesem Zweck wurden mehrere klinische Entscheidungsunterstützungssysteme entwickelt, um Ärzte bei der Identifizierung seltener Krankheiten zu unterstützen. Ihre Nützlichkeit ist jedoch aufgrund mangelnden Wissens über häufige Erkrankungen und schwieriger Handhabung begrenzt.
In diesem Artikel schlagen wir RareScale vor, um das Wissen von LLMs mit Expertensystemen zu kombinieren. Wir verwenden gemeinsam ein Expertensystem und ein LLM, um Chats über seltene Krankheiten zu simulieren. Diese Daten werden verwendet, um ein Modell zur Vorhersage von Kandidaten für seltene Krankheiten zu trainieren. Die Kandidaten dieses kleineren Modells werden dann als zusätzliche Eingaben für ein Black-Box-LLM verwendet, um die endgültige Differentialdiagnose zu stellen. Somit ermöglicht RareScale eine Balance zwischen seltenen und häufigen Diagnosen. Wir präsentieren Ergebnisse zu über 575 seltenen Krankheiten, beginnend mit Abdominaler Aktinomykose und endend mit Morbus Wilson. Unser Ansatz verbessert die Baseline-Leistung von Black-Box-LLMs um über 17 % in der Top-5-Genauigkeit. Wir stellen außerdem fest, dass die Leistung unserer Kandidatengenerierung hoch ist (z. B. 88,8 % bei GPT-4o-generierten Chats).
English
Large language models (LLMs) have demonstrated impressive capabilities in
disease diagnosis. However, their effectiveness in identifying rarer diseases,
which are inherently more challenging to diagnose, remains an open question.
Rare disease performance is critical with the increasing use of LLMs in
healthcare settings. This is especially true if a primary care physician needs
to make a rarer prognosis from only a patient conversation so that they can
take the appropriate next step. To that end, several clinical decision support
systems are designed to support providers in rare disease identification. Yet
their utility is limited due to their lack of knowledge of common disorders and
difficulty of use.
In this paper, we propose RareScale to combine the knowledge LLMs with expert
systems. We use jointly use an expert system and LLM to simulate rare disease
chats. This data is used to train a rare disease candidate predictor model.
Candidates from this smaller model are then used as additional inputs to
black-box LLM to make the final differential diagnosis. Thus, RareScale allows
for a balance between rare and common diagnoses. We present results on over 575
rare diseases, beginning with Abdominal Actinomycosis and ending with Wilson's
Disease. Our approach significantly improves the baseline performance of
black-box LLMs by over 17% in Top-5 accuracy. We also find that our candidate
generation performance is high (e.g. 88.8% on gpt-4o generated chats).Summary
AI-Generated Summary