ChatPaper.aiChatPaper

Algemene Fundamentmodellen Zijn Niet Klinisch Genoeg voor Ziekenhuisoperaties

Generalist Foundation Models Are Not Clinical Enough for Hospital Operations

November 17, 2025
Auteurs: Lavender Y. Jiang, Angelica Chen, Xu Han, Xujin Chris Liu, Radhika Dua, Kevin Eaton, Frederick Wolff, Robert Steele, Jeff Zhang, Anton Alyakin, Qingkai Pan, Yanbing Chen, Karl L. Sangwon, Daniel A. Alber, Jaden Stryker, Jin Vivian Lee, Yindalon Aphinyanaphongs, Kyunghyun Cho, Eric Karl Oermann
cs.AI

Samenvatting

Ziekenhuizen en gezondheidszorgsystemen zijn afhankelijk van operationele beslissingen die de patiëntenstroom, kosten en kwaliteit van zorg bepalen. Ondanks sterke prestaties op medische kennis en conversatiebenchmarks, kunnen foundation-modellen die zijn getraind op algemene teksten, gespecialiseerde kennis missen die nodig is voor deze operationele beslissingen. Wij introduceren Lang1, een familie van modellen (100M-7B parameters) die zijn voorgetraind op een gespecialiseerd corpus bestaande uit een mix van 80B klinische tokens uit de elektronische patiëntendossiers (EHR's) van NYU Langone Health en 627B tokens van het internet. Om Lang1 grondig te evalueren in realistische settings, ontwikkelden we de REalistic Medical Evaluation (ReMedE), een benchmark afgeleid van 668.331 EHR-notities die vijf kritieke taken evalueert: voorspelling van heropname binnen 30 dagen, voorspelling van sterfte binnen 30 dagen, ligduur, codering van comorbiditeiten en voorspelling van afwijzing van verzekeringsclaims. In zero-shot settings presteren zowel algemene als gespecialiseerde modellen ondermaats op vier van de vijf taken (36,6%-71,7% AUROC), met uitzondering van sterftevoorspelling. Na finetuning presteert Lang1-1B beter dan gefinetunede algemene modellen die tot 70x groter zijn en zero-shot modellen die tot 671x groter zijn, met een verbetering van de AUROC met respectievelijk 3,64%-6,75% en 1,66%-23,66%. We observeerden ook cross-task scaling, waarbij gezamenlijke finetuning op meerdere taken leidde tot verbetering op andere taken. Lang1-1B transferreert effectief naar out-of-distribution settings, inclusief andere klinische taken en een extern gezondheidssysteem. Onze bevindingen suggereren dat voorspellende capaciteiten voor ziekenhuisoperaties expliciete supervised finetuning vereisen, en dat dit finetuningproces efficiënter wordt door in-domein voorpretraining op EHR's. Onze resultaten ondersteunen het opkomende inzicht dat gespecialiseerde LLM's kunnen concurreren met algemene modellen voor gespecialiseerde taken, en tonen aan dat effectieve AI voor gezondheidszorgsystemen de combinatie vereist van in-domein voorpretraining, supervised finetuning en realistische evaluatie die verder gaat dan proxy-benchmarks.
English
Hospitals and healthcare systems rely on operational decisions that determine patient flow, cost, and quality of care. Despite strong performance on medical knowledge and conversational benchmarks, foundation models trained on general text may lack the specialized knowledge required for these operational decisions. We introduce Lang1, a family of models (100M-7B parameters) pretrained on a specialized corpus blending 80B clinical tokens from NYU Langone Health's EHRs and 627B tokens from the internet. To rigorously evaluate Lang1 in real-world settings, we developed the REalistic Medical Evaluation (ReMedE), a benchmark derived from 668,331 EHR notes that evaluates five critical tasks: 30-day readmission prediction, 30-day mortality prediction, length of stay, comorbidity coding, and predicting insurance claims denial. In zero-shot settings, both general-purpose and specialized models underperform on four of five tasks (36.6%-71.7% AUROC), with mortality prediction being an exception. After finetuning, Lang1-1B outperforms finetuned generalist models up to 70x larger and zero-shot models up to 671x larger, improving AUROC by 3.64%-6.75% and 1.66%-23.66% respectively. We also observed cross-task scaling with joint finetuning on multiple tasks leading to improvement on other tasks. Lang1-1B effectively transfers to out-of-distribution settings, including other clinical tasks and an external health system. Our findings suggest that predictive capabilities for hospital operations require explicit supervised finetuning, and that this finetuning process is made more efficient by in-domain pretraining on EHR. Our findings support the emerging view that specialized LLMs can compete with generalist models in specialized tasks, and show that effective healthcare systems AI requires the combination of in-domain pretraining, supervised finetuning, and real-world evaluation beyond proxy benchmarks.
PDF202December 1, 2025