ChatPaper.aiChatPaper

Универсальные базовые модели недостаточно адаптированы для клинических задач в условиях больничных операций

Generalist Foundation Models Are Not Clinical Enough for Hospital Operations

November 17, 2025
Авторы: Lavender Y. Jiang, Angelica Chen, Xu Han, Xujin Chris Liu, Radhika Dua, Kevin Eaton, Frederick Wolff, Robert Steele, Jeff Zhang, Anton Alyakin, Qingkai Pan, Yanbing Chen, Karl L. Sangwon, Daniel A. Alber, Jaden Stryker, Jin Vivian Lee, Yindalon Aphinyanaphongs, Kyunghyun Cho, Eric Karl Oermann
cs.AI

Аннотация

Больницы и системы здравоохранения зависят от операционных решений, определяющих поток пациентов, стоимость и качество медицинской помощи. Несмотря на высокие показатели в области медицинских знаний и диалоговых тестов, базовые модели, обученные на общих текстах, могут не обладать специализированными знаниями, необходимыми для таких операционных решений. Мы представляем Lang1 — семейство моделей (от 100 млн до 7 млрд параметров), предварительно обученных на специализированном корпусе, объединяющем 80 млрд клинических токенов из электронных медицинских карт (ЭМК) NYU Langone Health и 627 млрд токенов из интернета. Для строгой оценки Lang1 в реальных условиях мы разработали реалистичный медицинский бенчмарк (ReMedE), основанный на 668 331 записях ЭМК и оценивающий пять ключевых задач: прогнозирование повторной госпитализации в течение 30 дней, прогнозирование смертности в течение 30 дней, продолжительность пребывания, кодирование коморбидности и прогнозирование отказа в страховых выплатах. В условиях zero-shot как общецелевые, так и специализированные модели показывают низкие результаты по четырем из пяти задач (36,6%–71,7% AUROC), за исключением прогнозирования смертности. После дообучения Lang1-1B превосходит дообученные общецелевые модели размером до 70 раз больше и zero-shot модели размером до 671 раза больше, улучшая AUROC на 3,64%–6,75% и 1,66%–23,66% соответственно. Мы также наблюдали кросс-задачное масштабирование: совместное дообучение по нескольким задачам привело к улучшению результатов по другим задачам. Lang1-1B эффективно адаптируется к условиям вне распределения данных, включая другие клинические задачи и внешние системы здравоохранения. Наши результаты показывают, что прогностические возможности для работы больниц требуют явного контролируемого дообучения, и что этот процесс становится более эффективным при предварительном обучении на доменно-специфичных данных ЭМК. Наши выводы подтверждают формирующуюся точку зрения, что специализированные большие языковые модели могут конкурировать с общецелевыми моделями в специализированных задачах, и демонстрируют, что эффективный ИИ для систем здравоохранения требует комбинации предварительного обучения в предметной области, контролируемого дообучения и оценки в реальных условиях за пределами суррогатных бенчмарков.
English
Hospitals and healthcare systems rely on operational decisions that determine patient flow, cost, and quality of care. Despite strong performance on medical knowledge and conversational benchmarks, foundation models trained on general text may lack the specialized knowledge required for these operational decisions. We introduce Lang1, a family of models (100M-7B parameters) pretrained on a specialized corpus blending 80B clinical tokens from NYU Langone Health's EHRs and 627B tokens from the internet. To rigorously evaluate Lang1 in real-world settings, we developed the REalistic Medical Evaluation (ReMedE), a benchmark derived from 668,331 EHR notes that evaluates five critical tasks: 30-day readmission prediction, 30-day mortality prediction, length of stay, comorbidity coding, and predicting insurance claims denial. In zero-shot settings, both general-purpose and specialized models underperform on four of five tasks (36.6%-71.7% AUROC), with mortality prediction being an exception. After finetuning, Lang1-1B outperforms finetuned generalist models up to 70x larger and zero-shot models up to 671x larger, improving AUROC by 3.64%-6.75% and 1.66%-23.66% respectively. We also observed cross-task scaling with joint finetuning on multiple tasks leading to improvement on other tasks. Lang1-1B effectively transfers to out-of-distribution settings, including other clinical tasks and an external health system. Our findings suggest that predictive capabilities for hospital operations require explicit supervised finetuning, and that this finetuning process is made more efficient by in-domain pretraining on EHR. Our findings support the emerging view that specialized LLMs can compete with generalist models in specialized tasks, and show that effective healthcare systems AI requires the combination of in-domain pretraining, supervised finetuning, and real-world evaluation beyond proxy benchmarks.
PDF202December 1, 2025