Los Modelos de Fundación Generalistas No Son Lo Suficientemente Clínicos para las Operaciones Hospitalarias
Generalist Foundation Models Are Not Clinical Enough for Hospital Operations
November 17, 2025
Autores: Lavender Y. Jiang, Angelica Chen, Xu Han, Xujin Chris Liu, Radhika Dua, Kevin Eaton, Frederick Wolff, Robert Steele, Jeff Zhang, Anton Alyakin, Qingkai Pan, Yanbing Chen, Karl L. Sangwon, Daniel A. Alber, Jaden Stryker, Jin Vivian Lee, Yindalon Aphinyanaphongs, Kyunghyun Cho, Eric Karl Oermann
cs.AI
Resumen
Los hospitales y sistemas sanitarios dependen de decisiones operativas que determinan el flujo de pacientes, el coste y la calidad de la atención. A pesar del sólido rendimiento en conocimientos médicos y evaluaciones conversacionales, los modelos base entrenados con texto general pueden carecer del conocimiento especializado requerido para estas decisiones operativas. Presentamos Lang1, una familia de modelos (de 100M a 7B de parámetros) preentrenada con un corpus especializado que combina 80B de *tokens* clínicos de las historias clínicas electrónicas (HCE) de NYU Langone Health y 627B de *tokens* de internet. Para evaluar rigurosamente a Lang1 en entornos del mundo real, desarrollamos la Evaluación Médica Realista (ReMedE), un punto de referencia derivado de 668,331 notas de HCE que evalúa cinco tareas críticas: predicción de reingreso a 30 días, predicción de mortalidad a 30 días, duración de la estancia, codificación de comorbilidades y predicción de denegación de reclamaciones de seguros. En entornos *zero-shot*, tanto los modelos de propósito general como los especializados obtienen un rendimiento inferior en cuatro de las cinco tareas (36,6%-71,7% AUROC), siendo la predicción de mortalidad la excepción. Tras el ajuste fino (*finetuning*), Lang1-1B supera a los modelos generalistas ajustados hasta 70 veces más grandes y a los modelos *zero-shot* hasta 671 veces más grandes, mejorando el AUROC en un 3,64%-6,75% y un 1,66%-23,66%, respectivamente. También observamos un escalado cruzado de tareas, donde el ajuste fino conjunto en múltiples tareas conduce a una mejora en otras tareas. Lang1-1B se transfiere eficazmente a entornos fuera de distribución, incluyendo otras tareas clínicas y un sistema sanitario externo. Nuestros hallazgos sugieren que las capacidades predictivas para las operaciones hospitalarias requieren un ajuste fino supervisado explícito, y que este proceso se hace más eficiente mediante el preentrenamiento en el dominio específico de las HCE. Nuestros resultados respaldan la visión emergente de que los LLM especializados pueden competir con modelos generalistas en tareas especializadas, y muestran que una IA eficaz para sistemas sanitarios requiere la combinación de preentrenamiento en el dominio, ajuste fino supervisado y evaluación en el mundo real más allá de los puntos de referencia proxy.
English
Hospitals and healthcare systems rely on operational decisions that determine patient flow, cost, and quality of care. Despite strong performance on medical knowledge and conversational benchmarks, foundation models trained on general text may lack the specialized knowledge required for these operational decisions. We introduce Lang1, a family of models (100M-7B parameters) pretrained on a specialized corpus blending 80B clinical tokens from NYU Langone Health's EHRs and 627B tokens from the internet. To rigorously evaluate Lang1 in real-world settings, we developed the REalistic Medical Evaluation (ReMedE), a benchmark derived from 668,331 EHR notes that evaluates five critical tasks: 30-day readmission prediction, 30-day mortality prediction, length of stay, comorbidity coding, and predicting insurance claims denial. In zero-shot settings, both general-purpose and specialized models underperform on four of five tasks (36.6%-71.7% AUROC), with mortality prediction being an exception. After finetuning, Lang1-1B outperforms finetuned generalist models up to 70x larger and zero-shot models up to 671x larger, improving AUROC by 3.64%-6.75% and 1.66%-23.66% respectively. We also observed cross-task scaling with joint finetuning on multiple tasks leading to improvement on other tasks. Lang1-1B effectively transfers to out-of-distribution settings, including other clinical tasks and an external health system. Our findings suggest that predictive capabilities for hospital operations require explicit supervised finetuning, and that this finetuning process is made more efficient by in-domain pretraining on EHR. Our findings support the emerging view that specialized LLMs can compete with generalist models in specialized tasks, and show that effective healthcare systems AI requires the combination of in-domain pretraining, supervised finetuning, and real-world evaluation beyond proxy benchmarks.