ChatPaper.aiChatPaper

Generische Basismodelle sind für den Krankenhausbetrieb nicht klinisch ausreichend.

Generalist Foundation Models Are Not Clinical Enough for Hospital Operations

November 17, 2025
papers.authors: Lavender Y. Jiang, Angelica Chen, Xu Han, Xujin Chris Liu, Radhika Dua, Kevin Eaton, Frederick Wolff, Robert Steele, Jeff Zhang, Anton Alyakin, Qingkai Pan, Yanbing Chen, Karl L. Sangwon, Daniel A. Alber, Jaden Stryker, Jin Vivian Lee, Yindalon Aphinyanaphongs, Kyunghyun Cho, Eric Karl Oermann
cs.AI

papers.abstract

Krankenhäuser und Gesundheitssysteme sind auf operative Entscheidungen angewiesen, die den Patientenfluss, die Kosten und die Qualität der Versorgung bestimmen. Obwohl Foundation-Modelle, die auf allgemeinen Texten trainiert wurden, bei medizinischem Wissen und Konversations-Benchmarks gute Leistungen erbringen, mangelt es ihnen möglicherweise an dem spezialisierten Wissen, das für diese operativen Entscheidungen erforderlich ist. Wir stellen Lang1 vor, eine Familie von Modellen (100M-7B Parameter), die auf einem spezialisierten Korpus vortrainiert wurden, der 80B klinische Tokens aus den elektronischen Gesundheitsakten (EHR) des NYU Langone Health und 627B Tokens aus dem Internet kombiniert. Um Lang1 unter realen Bedingungen rigoros zu evaluieren, entwickelten wir den Realistic Medical Evaluation (ReMedE), einen Benchmark, der auf 668.331 EHR-Notizen basiert und fünf kritische Aufgaben bewertet: Vorhersage der Wiederaufnahme innerhalb von 30 Tagen, Vorhersage der 30-Tage-Mortalität, Verweildauer, Kodierung von Komorbiditäten und Vorhersage von Ablehnungen von Versicherungsansprüchen. In Zero-Shot-Szenarien schneiden sowohl allgemeine als auch spezialisierte Modelle bei vier von fünf Aufgaben schlecht ab (36,6 %-71,7 % AUROC), mit Ausnahme der Mortalitätsvorhersage. Nach dem Finetuning übertrifft Lang1-1B finetunierte Generalisten-Modelle, die bis zu 70x größer sind, und Zero-Shot-Modelle, die bis zu 671x größer sind, und verbessert den AUROC um 3,64 %-6,75 % bzw. 1,66 %-23,66 %. Wir beobachteten auch Skalierungseffekte über Aufgaben hinweg, wobei gemeinsames Finetuning auf mehreren Aufgaben zu Verbesserungen bei anderen Aufgaben führte. Lang1-1B überträgt sich effektiv auf Out-of-Distribution-Szenarien, einschließlich anderer klinischer Aufgaben und eines externen Gesundheitssystems. Unsere Ergebnisse deuten darauf hin, dass prädiktive Fähigkeiten für Krankenhausoperationen explizites überwachtes Finetuning erfordern und dass dieser Finetuning-Prozess durch domänenspezifisches Vortraining auf EHR-Daten effizienter wird. Unsere Ergebnisse unterstützen die aufkommende Ansicht, dass spezialisierte LLMs bei spezialisierten Aufgaben mit Generalisten-Modellen konkurrieren können, und zeigen, dass eine effektive KI für Gesundheitssysteme die Kombination aus domänenspezifischem Vortraining, überwachtem Finetuning und realer Evaluation über Stellvertreter-Benchmarks hinaus erfordert.
English
Hospitals and healthcare systems rely on operational decisions that determine patient flow, cost, and quality of care. Despite strong performance on medical knowledge and conversational benchmarks, foundation models trained on general text may lack the specialized knowledge required for these operational decisions. We introduce Lang1, a family of models (100M-7B parameters) pretrained on a specialized corpus blending 80B clinical tokens from NYU Langone Health's EHRs and 627B tokens from the internet. To rigorously evaluate Lang1 in real-world settings, we developed the REalistic Medical Evaluation (ReMedE), a benchmark derived from 668,331 EHR notes that evaluates five critical tasks: 30-day readmission prediction, 30-day mortality prediction, length of stay, comorbidity coding, and predicting insurance claims denial. In zero-shot settings, both general-purpose and specialized models underperform on four of five tasks (36.6%-71.7% AUROC), with mortality prediction being an exception. After finetuning, Lang1-1B outperforms finetuned generalist models up to 70x larger and zero-shot models up to 671x larger, improving AUROC by 3.64%-6.75% and 1.66%-23.66% respectively. We also observed cross-task scaling with joint finetuning on multiple tasks leading to improvement on other tasks. Lang1-1B effectively transfers to out-of-distribution settings, including other clinical tasks and an external health system. Our findings suggest that predictive capabilities for hospital operations require explicit supervised finetuning, and that this finetuning process is made more efficient by in-domain pretraining on EHR. Our findings support the emerging view that specialized LLMs can compete with generalist models in specialized tasks, and show that effective healthcare systems AI requires the combination of in-domain pretraining, supervised finetuning, and real-world evaluation beyond proxy benchmarks.
PDF202December 1, 2025