Modelos de Base Generalistas Não São Suficientemente Clínicos para Operações Hospitalares
Generalist Foundation Models Are Not Clinical Enough for Hospital Operations
November 17, 2025
Autores: Lavender Y. Jiang, Angelica Chen, Xu Han, Xujin Chris Liu, Radhika Dua, Kevin Eaton, Frederick Wolff, Robert Steele, Jeff Zhang, Anton Alyakin, Qingkai Pan, Yanbing Chen, Karl L. Sangwon, Daniel A. Alber, Jaden Stryker, Jin Vivian Lee, Yindalon Aphinyanaphongs, Kyunghyun Cho, Eric Karl Oermann
cs.AI
Resumo
Hospitais e sistemas de saúde dependem de decisões operacionais que determinam o fluxo de pacientes, os custos e a qualidade do atendimento. Apesar do forte desempenho em benchmarks de conhecimento médico e conversacionais, os modelos de base (foundation models) treinados em texto genérico podem carecer do conhecimento especializado necessário para essas decisões operacionais. Apresentamos a Lang1, uma família de modelos (100M-7B de parâmetros) pré-treinada em um corpus especializado que combina 80B de tokens clínicos dos prontuários eletrônicos de saúde (EHR) do NYU Langone Health e 627B de tokens da internet. Para avaliar rigorosamente a Lang1 em contextos do mundo real, desenvolvemos a REalistic Medical Evaluation (ReMedE), um benchmark derivado de 668.331 notas de EHR que avalia cinco tarefas críticas: previsão de readmissão em 30 dias, previsão de mortalidade em 30 dias, tempo de permanência, codificação de comorbidades e previsão de negação de sinistros de seguro. Em configurações zero-shot, tanto os modelos de propósito geral quanto os especializados apresentam desempenho inferior em quatro das cinco tarefas (36,6%-71,7% AUROC), sendo a previsão de mortalidade uma exceção. Após o ajuste fino (finetuning), o Lang1-1B supera modelos generalistas ajustados com até 70x o seu tamanho e modelos zero-shot com até 671x o seu tamanho, melhorando o AUROC em 3,64%-6,75% e 1,66%-23,66%, respectivamente. Também observamos escalonamento cruzado de tarefas, com o ajuste fino conjunto em múltiplas tarefas levando a melhorias em outras tarefas. O Lang1-1B transfere-se efetivamente para configurações fora da distribuição, incluindo outras tarefas clínicas e um sistema de saúde externo. Nossos achados sugerem que as capacidades preditivas para operações hospitalares requerem ajuste fino supervisionado explícito, e que esse processo de ajuste fino é tornado mais eficiente pelo pré-treinamento no domínio específico de EHR. Nossos resultados corroboram a visão emergente de que LLMs especializados podem competir com modelos generalistas em tarefas especializadas e mostram que uma IA eficaz para sistemas de saúde requer a combinação de pré-treinamento no domínio, ajuste fino supervisionado e avaliação no mundo real para além de benchmarks substitutos.
English
Hospitals and healthcare systems rely on operational decisions that determine patient flow, cost, and quality of care. Despite strong performance on medical knowledge and conversational benchmarks, foundation models trained on general text may lack the specialized knowledge required for these operational decisions. We introduce Lang1, a family of models (100M-7B parameters) pretrained on a specialized corpus blending 80B clinical tokens from NYU Langone Health's EHRs and 627B tokens from the internet. To rigorously evaluate Lang1 in real-world settings, we developed the REalistic Medical Evaluation (ReMedE), a benchmark derived from 668,331 EHR notes that evaluates five critical tasks: 30-day readmission prediction, 30-day mortality prediction, length of stay, comorbidity coding, and predicting insurance claims denial. In zero-shot settings, both general-purpose and specialized models underperform on four of five tasks (36.6%-71.7% AUROC), with mortality prediction being an exception. After finetuning, Lang1-1B outperforms finetuned generalist models up to 70x larger and zero-shot models up to 671x larger, improving AUROC by 3.64%-6.75% and 1.66%-23.66% respectively. We also observed cross-task scaling with joint finetuning on multiple tasks leading to improvement on other tasks. Lang1-1B effectively transfers to out-of-distribution settings, including other clinical tasks and an external health system. Our findings suggest that predictive capabilities for hospital operations require explicit supervised finetuning, and that this finetuning process is made more efficient by in-domain pretraining on EHR. Our findings support the emerging view that specialized LLMs can compete with generalist models in specialized tasks, and show that effective healthcare systems AI requires the combination of in-domain pretraining, supervised finetuning, and real-world evaluation beyond proxy benchmarks.