ChatPaper.aiChatPaper

I modelli fondazionali generalisti non sono sufficientemente clinici per le operazioni ospedaliere

Generalist Foundation Models Are Not Clinical Enough for Hospital Operations

November 17, 2025
Autori: Lavender Y. Jiang, Angelica Chen, Xu Han, Xujin Chris Liu, Radhika Dua, Kevin Eaton, Frederick Wolff, Robert Steele, Jeff Zhang, Anton Alyakin, Qingkai Pan, Yanbing Chen, Karl L. Sangwon, Daniel A. Alber, Jaden Stryker, Jin Vivian Lee, Yindalon Aphinyanaphongs, Kyunghyun Cho, Eric Karl Oermann
cs.AI

Abstract

Gli ospedali e i sistemi sanitari si basano su decisioni operative che determinano il flusso dei pazienti, i costi e la qualità dell'assistenza. Nonostante le eccellenti prestazioni nelle conoscenze mediche e nei benchmark conversazionali, i modelli di base addestrati su testo generico potrebbero non possedere le conoscenze specialistiche necessarie per queste decisioni operative. Presentiamo Lang1, una famiglia di modelli (da 100M a 7B di parametri) pre-addestrata su un corpus specializzato che combina 80B di token clinici dagli EHR del NYU Langone Health e 627B di token provenienti da internet. Per valutare rigorosamente Lang1 in contesti reali, abbiamo sviluppato il REalistic Medical Evaluation (ReMedE), un benchmark derivato da 668.331 note di EHR che valuta cinque compiti critici: previsione dei riammissioni a 30 giorni, previsione della mortalità a 30 giorni, durata della degenza, codifica delle comorbidità e previsione del diniego delle richieste di rimborso assicurativo. In contesti zero-shot, sia i modelli generalisti che quelli specializzati ottengono prestazioni inferiori in quattro dei cinque compiti (AUROC 36,6%-71,7%), con l'eccezione della previsione della mortalità. Dopo il fine-tuning, Lang1-1B supera i modelli generalisti sottoposti a fine-tuning fino a 70 volte più grandi e i modelli zero-shot fino a 671 volte più grandi, migliorando l'AUROC rispettivamente del 3,64%-6,75% e dell'1,66%-23,66%. Abbiamo anche osservato uno scaling cross-task, per cui il fine-tuning congiunto su più compiti porta a un miglioramento in altri compiti. Lang1-1B si trasferisce efficacemente a contesti out-of-distribution, inclusi altri compiti clinici e un sistema sanitario esterno. I nostri risultati suggeriscono che le capacità predittive per le operazioni ospedaliere richiedono un esplicito fine-tuning supervisionato e che questo processo è reso più efficiente dal pre-addestramento in-domain sugli EHR. I nostri risultati supportano l'opinione emergente che gli LLM specializzati possano competere con i modelli generalisti in compiti specialistici e dimostrano che un'IA efficace per i sistemi sanitari richiede la combinazione di pre-addestramento in-domain, fine-tuning supervisionato e valutazione nel mondo reale che vada oltre i benchmark proxy.
English
Hospitals and healthcare systems rely on operational decisions that determine patient flow, cost, and quality of care. Despite strong performance on medical knowledge and conversational benchmarks, foundation models trained on general text may lack the specialized knowledge required for these operational decisions. We introduce Lang1, a family of models (100M-7B parameters) pretrained on a specialized corpus blending 80B clinical tokens from NYU Langone Health's EHRs and 627B tokens from the internet. To rigorously evaluate Lang1 in real-world settings, we developed the REalistic Medical Evaluation (ReMedE), a benchmark derived from 668,331 EHR notes that evaluates five critical tasks: 30-day readmission prediction, 30-day mortality prediction, length of stay, comorbidity coding, and predicting insurance claims denial. In zero-shot settings, both general-purpose and specialized models underperform on four of five tasks (36.6%-71.7% AUROC), with mortality prediction being an exception. After finetuning, Lang1-1B outperforms finetuned generalist models up to 70x larger and zero-shot models up to 671x larger, improving AUROC by 3.64%-6.75% and 1.66%-23.66% respectively. We also observed cross-task scaling with joint finetuning on multiple tasks leading to improvement on other tasks. Lang1-1B effectively transfers to out-of-distribution settings, including other clinical tasks and an external health system. Our findings suggest that predictive capabilities for hospital operations require explicit supervised finetuning, and that this finetuning process is made more efficient by in-domain pretraining on EHR. Our findings support the emerging view that specialized LLMs can compete with generalist models in specialized tasks, and show that effective healthcare systems AI requires the combination of in-domain pretraining, supervised finetuning, and real-world evaluation beyond proxy benchmarks.
PDF202December 1, 2025