ChatPaper.aiChatPaper

범용 기초 모델은 병원 운영에 충분히 임상적이지 않습니다

Generalist Foundation Models Are Not Clinical Enough for Hospital Operations

November 17, 2025
저자: Lavender Y. Jiang, Angelica Chen, Xu Han, Xujin Chris Liu, Radhika Dua, Kevin Eaton, Frederick Wolff, Robert Steele, Jeff Zhang, Anton Alyakin, Qingkai Pan, Yanbing Chen, Karl L. Sangwon, Daniel A. Alber, Jaden Stryker, Jin Vivian Lee, Yindalon Aphinyanaphongs, Kyunghyun Cho, Eric Karl Oermann
cs.AI

초록

병원 및 의료 시스템은 환자 흐름, 비용, 치료의 질을 결정하는 운영 의사결정에 의존합니다. 일반 텍스트로 훈련된 기초 모델들은 의학 지식 및 대화 벤치마크에서 강력한 성능을 보임에도 불구하고, 이러한 운영 의사결정에 필요한 전문 지식이 부족할 수 있습니다. 우리는 NYU Langone Health의 EHR(전자 건강 기록)에서 추출한 800억 개의 임상 토큰과 인터넷에서 수집한 6,270억 개의 토큰을 혼합한 전문 코퍼스로 사전 훈련된 Lang1 모델 패밀리(1억-70억 매개변수)를 소개합니다. Lang1을 실제 환경에서 엄격하게 평가하기 위해 668,331개의 EHR 노트에서 도출된 벤치마크인 ReMedE(현실적 의료 평가)를 개발하였으며, 이는 30일 내 재입원 예측, 30일 내 사망률 예측, 재원 기간, 동반이환병 코딩, 보험 청구 거절 예측이라는 다섯 가지 주요 작업을 평가합니다. 제로샷 환경에서 범용 모델과 전문 모델 모두 사망률 예측을 제외한 네 가지 작업에서 낮은 성능(AUROC 36.6%-71.7%)을 보였습니다. 미세 조정 후, Lang1-1B는 최대 70배 큰 범용 미세 조정 모델들과 최대 671배 큰 제로샷 모델들을 능가하며, AUROC를 각각 3.64%-6.75%, 1.66%-23.66% 개선했습니다. 또한 여러 작업을 함께 미세 조정하는 교차 작업 스케일링이 관찰되어 다른 작업에서도 성능 향상이 발생했습니다. Lang1-1B는 다른 임상 작업 및 외부 의료 시스템을 포함한 분포 외 환경으로도 효과적으로 전이되었습니다. 우리의 연구 결과는 병원 운영을 위한 예측 능력이 명시적인 지도 미세 조정을 필요로 하며, EHR에 대한 도메인 내 사전 훈련이 이 미세 조정 과정을 더 효율적으로 만든다는 것을 시사합니다. 이 결과는 특화된 LLM이 전문 분야 작업에서 범용 모델과 경쟁할 수 있다는新兴 견해를 지지하며, 효과적인 의료 시스템 AI 구현에는 도메인 내 사전 훈련, 지도 미세 조정, 그리고 대리 벤치마크를 넘어선 실제 환경 평가의 결합이 필요함을 보여줍니다.
English
Hospitals and healthcare systems rely on operational decisions that determine patient flow, cost, and quality of care. Despite strong performance on medical knowledge and conversational benchmarks, foundation models trained on general text may lack the specialized knowledge required for these operational decisions. We introduce Lang1, a family of models (100M-7B parameters) pretrained on a specialized corpus blending 80B clinical tokens from NYU Langone Health's EHRs and 627B tokens from the internet. To rigorously evaluate Lang1 in real-world settings, we developed the REalistic Medical Evaluation (ReMedE), a benchmark derived from 668,331 EHR notes that evaluates five critical tasks: 30-day readmission prediction, 30-day mortality prediction, length of stay, comorbidity coding, and predicting insurance claims denial. In zero-shot settings, both general-purpose and specialized models underperform on four of five tasks (36.6%-71.7% AUROC), with mortality prediction being an exception. After finetuning, Lang1-1B outperforms finetuned generalist models up to 70x larger and zero-shot models up to 671x larger, improving AUROC by 3.64%-6.75% and 1.66%-23.66% respectively. We also observed cross-task scaling with joint finetuning on multiple tasks leading to improvement on other tasks. Lang1-1B effectively transfers to out-of-distribution settings, including other clinical tasks and an external health system. Our findings suggest that predictive capabilities for hospital operations require explicit supervised finetuning, and that this finetuning process is made more efficient by in-domain pretraining on EHR. Our findings support the emerging view that specialized LLMs can compete with generalist models in specialized tasks, and show that effective healthcare systems AI requires the combination of in-domain pretraining, supervised finetuning, and real-world evaluation beyond proxy benchmarks.
PDF202December 1, 2025