ChatPaper.aiChatPaper

Les modèles de fondation généralistes ne sont pas suffisamment cliniques pour les opérations hospitalières

Generalist Foundation Models Are Not Clinical Enough for Hospital Operations

November 17, 2025
papers.authors: Lavender Y. Jiang, Angelica Chen, Xu Han, Xujin Chris Liu, Radhika Dua, Kevin Eaton, Frederick Wolff, Robert Steele, Jeff Zhang, Anton Alyakin, Qingkai Pan, Yanbing Chen, Karl L. Sangwon, Daniel A. Alber, Jaden Stryker, Jin Vivian Lee, Yindalon Aphinyanaphongs, Kyunghyun Cho, Eric Karl Oermann
cs.AI

papers.abstract

Les hôpitaux et les systèmes de santé s'appuient sur des décisions opérationnelles qui déterminent le flux de patients, les coûts et la qualité des soins. Malgré de bonnes performances sur les référentiels de connaissances médicales et conversationnelles, les modèles de fondation entraînés sur du texte général peuvent manquer des connaissances spécialisées nécessaires à ces décisions opérationnelles. Nous présentons Lang1, une famille de modèles (100M à 7B de paramètres) pré-entraînée sur un corpus spécialisé combinant 80 milliards de tokens cliniques provenus des dossiers de santé électroniques (DSE) de NYU Langone Health et 627 milliards de tokens provenant d'Internet. Pour évaluer rigoureusement Lang1 dans des contextes réels, nous avons développé le REalistic Medical Evaluation (ReMedE), un référentiel dérivé de 668 331 notes de DSE qui évalue cinq tâches critiques : la prédiction de réadmission sous 30 jours, la prédiction de mortalité sous 30 jours, la durée de séjour, le codage des comorbidités et la prédiction du refus de prise en charge par l'assurance. En mode zero-shot, les modèles généralistes et spécialisés obtiennent des performances inférieures sur quatre des cinq tâches (36,6 % à 71,7 % d'AUROC), à l'exception de la prédiction de mortalité. Après un affinage, Lang1-1B surpasse les modèles généralistes affinés jusqu'à 70 fois plus grands et les modèles zero-shot jusqu'à 671 fois plus grands, améliorant l'AUROC de 3,64 % à 6,75 % et de 1,66 % à 23,66 % respectivement. Nous avons également observé un effet d'échelle trans-tâches, l'affinage conjoint sur plusieurs tâches conduisant à une amélioration sur d'autres tâches. Lang1-1B se transfère efficacement à des contextes hors distribution, incluant d'autres tâches cliniques et un système de santé externe. Nos résultats suggèrent que les capacités prédictives pour les opérations hospitalières nécessitent un affinage supervisé explicite, et que ce processus d'affinage est rendu plus efficace par un pré-entraînement dans le domaine sur les DSE. Nos résultats soutiennent l'opinion émergente que les LLM spécialisés peuvent rivaliser avec les modèles généralistes sur des tâches spécialisées, et montrent qu'une IA efficace pour les systèmes de santé nécessite la combinaison d'un pré-entraînement dans le domaine, d'un affinage supervisé et d'une évaluation en conditions réelles au-delà des référentiels proxys.
English
Hospitals and healthcare systems rely on operational decisions that determine patient flow, cost, and quality of care. Despite strong performance on medical knowledge and conversational benchmarks, foundation models trained on general text may lack the specialized knowledge required for these operational decisions. We introduce Lang1, a family of models (100M-7B parameters) pretrained on a specialized corpus blending 80B clinical tokens from NYU Langone Health's EHRs and 627B tokens from the internet. To rigorously evaluate Lang1 in real-world settings, we developed the REalistic Medical Evaluation (ReMedE), a benchmark derived from 668,331 EHR notes that evaluates five critical tasks: 30-day readmission prediction, 30-day mortality prediction, length of stay, comorbidity coding, and predicting insurance claims denial. In zero-shot settings, both general-purpose and specialized models underperform on four of five tasks (36.6%-71.7% AUROC), with mortality prediction being an exception. After finetuning, Lang1-1B outperforms finetuned generalist models up to 70x larger and zero-shot models up to 671x larger, improving AUROC by 3.64%-6.75% and 1.66%-23.66% respectively. We also observed cross-task scaling with joint finetuning on multiple tasks leading to improvement on other tasks. Lang1-1B effectively transfers to out-of-distribution settings, including other clinical tasks and an external health system. Our findings suggest that predictive capabilities for hospital operations require explicit supervised finetuning, and that this finetuning process is made more efficient by in-domain pretraining on EHR. Our findings support the emerging view that specialized LLMs can compete with generalist models in specialized tasks, and show that effective healthcare systems AI requires the combination of in-domain pretraining, supervised finetuning, and real-world evaluation beyond proxy benchmarks.
PDF202December 1, 2025