Дифференциальная диагностика редких заболеваний с использованием крупномасштабных языковых моделей: от брюшной актиномикоза до болезни Вильсона.
Rare Disease Differential Diagnosis with Large Language Models at Scale: From Abdominal Actinomycosis to Wilson's Disease
February 20, 2025
Авторы: Elliot Schumacher, Dhruv Naik, Anitha Kannan
cs.AI
Аннотация
Большие языковые модели (LLM) продемонстрировали впечатляющие возможности в диагностике заболеваний. Однако их эффективность в выявлении редких заболеваний, которые по своей природе более сложны для диагностики, остается открытым вопросом. Производительность в диагностике редких заболеваний имеет ключевое значение с увеличением использования LLM в медицинских учреждениях. Это особенно важно, если врач общей практики должен сделать диагноз редкого заболевания только по разговору с пациентом, чтобы принять соответствующий следующий шаг. В этой статье мы предлагаем RareScale для объединения знаний LLM с экспертными системами. Мы совместно используем экспертную систему и LLM для моделирования чатов по редким заболеваниям. Эти данные используются для обучения модели предсказания кандидатов на редкое заболевание. Кандидаты из этой более маленькой модели затем используются в качестве дополнительных входных данных для черного ящика LLM для составления окончательного дифференциального диагноза. Таким образом, RareScale позволяет достичь баланса между редкими и обычными диагнозами. Мы представляем результаты по более чем 575 редким заболеваниям, начиная с актиномикоза брюшной полости и заканчивая болезнью Вильсона. Наш подход значительно улучшает базовую производительность черного ящика LLM на более чем 17% по точности Top-5. Мы также обнаружили, что производительность генерации кандидатов высока (например, 88,8% в чатах, сгенерированных gpt-4o).
English
Large language models (LLMs) have demonstrated impressive capabilities in
disease diagnosis. However, their effectiveness in identifying rarer diseases,
which are inherently more challenging to diagnose, remains an open question.
Rare disease performance is critical with the increasing use of LLMs in
healthcare settings. This is especially true if a primary care physician needs
to make a rarer prognosis from only a patient conversation so that they can
take the appropriate next step. To that end, several clinical decision support
systems are designed to support providers in rare disease identification. Yet
their utility is limited due to their lack of knowledge of common disorders and
difficulty of use.
In this paper, we propose RareScale to combine the knowledge LLMs with expert
systems. We use jointly use an expert system and LLM to simulate rare disease
chats. This data is used to train a rare disease candidate predictor model.
Candidates from this smaller model are then used as additional inputs to
black-box LLM to make the final differential diagnosis. Thus, RareScale allows
for a balance between rare and common diagnoses. We present results on over 575
rare diseases, beginning with Abdominal Actinomycosis and ending with Wilson's
Disease. Our approach significantly improves the baseline performance of
black-box LLMs by over 17% in Top-5 accuracy. We also find that our candidate
generation performance is high (e.g. 88.8% on gpt-4o generated chats).Summary
AI-Generated Summary