一般用途基盤モデルは病院業務には臨床的に不十分である
Generalist Foundation Models Are Not Clinical Enough for Hospital Operations
November 17, 2025
著者: Lavender Y. Jiang, Angelica Chen, Xu Han, Xujin Chris Liu, Radhika Dua, Kevin Eaton, Frederick Wolff, Robert Steele, Jeff Zhang, Anton Alyakin, Qingkai Pan, Yanbing Chen, Karl L. Sangwon, Daniel A. Alber, Jaden Stryker, Jin Vivian Lee, Yindalon Aphinyanaphongs, Kyunghyun Cho, Eric Karl Oermann
cs.AI
要旨
病院や医療システムは、患者フロー、コスト、医療の質を決定する運営上の意思決定に依存している。医学的知識や会話ベンチマークで高い性能を示す基盤モデルであっても、一般テキストで学習されたものは、これらの運営判断に必要な専門知識を欠いている可能性がある。本研究では、NYU Langone Healthの電子健康記録(EHR)から得られた800億の臨床トークンと、インターネットから得られた6270億のトークンを組み合わせた専門コーパスで事前学習された、Lang1(パラメータ数100M-7B)モデルファミリーを紹介する。Lang1を現実世界の環境で厳密に評価するため、668,331件のEHR記録から派生したベンチマーク「REalistic Medical Evaluation(ReMedE)」を開発した。これは、30日再入院予測、30日死亡率予測、在院日数予測、併存疾患コーディング、保険請求拒否予測という5つの重要なタスクを評価する。ゼロショット設定では、一般目的モデルと専門モデルの両方が、死亡率予測を除く5つのタスクのうち4つで性能が低く(AUROC 36.6%-71.7%)、例外は死亡率予測であった。ファインチューニング後、Lang1-1Bは、最大70倍大きいファインチューニング済み一般モデルおよび最大671倍大きいゼロショットモデルを凌駕し、AUROCをそれぞれ3.64%-6.75%および1.66%-23.66%改善した。また、複数タスクの共同ファインチューニングによるタスク間のスケーリング効果も観察され、他のタスクでの改善につながった。Lang1-1Bは、他の臨床タスクや外部の医療システムを含む、分布外の設定にも効果的に転移した。我々の知見は、病院運営のための予測能力には明示的な教師ありファインチューニングが必要であり、このファインチューニングプロセスがEHRによるドメイン内事前学習によってより効率的になることを示唆している。また、専門特化型LLMが専門タスクにおいて汎用モデルと競合し得るという新たな見解を支持し、効果的な医療システムAIの実現には、ドメイン内事前学習、教師ありファインチューニング、代理ベンチマークを超えた実世界評価の組み合わせが必要であることを示した。
English
Hospitals and healthcare systems rely on operational decisions that determine patient flow, cost, and quality of care. Despite strong performance on medical knowledge and conversational benchmarks, foundation models trained on general text may lack the specialized knowledge required for these operational decisions. We introduce Lang1, a family of models (100M-7B parameters) pretrained on a specialized corpus blending 80B clinical tokens from NYU Langone Health's EHRs and 627B tokens from the internet. To rigorously evaluate Lang1 in real-world settings, we developed the REalistic Medical Evaluation (ReMedE), a benchmark derived from 668,331 EHR notes that evaluates five critical tasks: 30-day readmission prediction, 30-day mortality prediction, length of stay, comorbidity coding, and predicting insurance claims denial. In zero-shot settings, both general-purpose and specialized models underperform on four of five tasks (36.6%-71.7% AUROC), with mortality prediction being an exception. After finetuning, Lang1-1B outperforms finetuned generalist models up to 70x larger and zero-shot models up to 671x larger, improving AUROC by 3.64%-6.75% and 1.66%-23.66% respectively. We also observed cross-task scaling with joint finetuning on multiple tasks leading to improvement on other tasks. Lang1-1B effectively transfers to out-of-distribution settings, including other clinical tasks and an external health system. Our findings suggest that predictive capabilities for hospital operations require explicit supervised finetuning, and that this finetuning process is made more efficient by in-domain pretraining on EHR. Our findings support the emerging view that specialized LLMs can compete with generalist models in specialized tasks, and show that effective healthcare systems AI requires the combination of in-domain pretraining, supervised finetuning, and real-world evaluation beyond proxy benchmarks.