ChatPaper.aiChatPaper

EHR-R1: 전자의무기록 분석을 위한 추론 강화 기초 언어 모델

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

October 29, 2025
저자: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI

초록

전자의무기록(EHR)은 풍부하면서도 복잡한 정보를 포함하고 있으며, 이의 자동화된 분석은 임상 의사결정에 매우 중요합니다. 대규모 언어 모델(LLM)의 임상 워크플로우 적용에 관한 최근 발전에도 불구하고, EHR 분석 능력은 제한된 과제 범위와 EHR 지향적 추론 능력 부족으로 인해 여전히 제한적입니다. 본 논문은 이러한 격차를 해소하고자 하며, 구체적으로 42개의 distinct EHR 과제에 걸쳐 30만 건의 고품질 추론 사례와 400만 건의 비추론 사례로 구성된 대규모 종합 EHR 추론 명령어 데이터셋인 EHR-Ins를 제시합니다. 핵심 혁신은 대규모 고품질 추론 데이터 생성을 가능하게 하는 Thinking-Graph 주도 프레임워크입니다. 이를 바탕으로 EHR 분석에 맞춤화된 최대 720억 개의 매개변수를 가진 추론 강화 LLM 시리즈인 EHR-R1을 개발했습니다. 도메인 적응, 추론 강화, 강화 학습을 포함한 다단계 학습 패러다임을 통해 EHR-R1은 체계적으로 도메인 지식과 다양한 추론 능력을 습득하여 정확하고 견고한 EHR 분석을 가능하게 합니다. 마지막으로, MIMIC-IV에서 선별된 42개 과제를 아우르는 새로운 벤치마크인 EHR-Bench를 소개하여 EHR 시나리오 전반에 걸친 추론 및 예측 능력을 종합적으로 평가합니다. 실험 결과, 개발된 EHR-R1은 최첨단 상용 및 오픈소스 LLM(DeepSeek-V3 및 GPT-4o 포함)을 꾸준히 능가하며, MIMIC-Bench에서 GPT-4o 대비 30점 이상, EHRSHOT에서는 10% 더 높은 제로샷 AUROC를 달성했습니다. 종합적으로 EHR-Ins, EHR-R1 및 EHR-Bench는 더욱 신뢰할 수 있고 임상적으로 관련성 높은 EHR 분석 개발을 크게 진전시켰습니다.
English
Electronic Health Records (EHRs) contain rich yet complex information, and their automated analysis is critical for clinical decision-making. Despite recent advances of large language models (LLMs) in clinical workflows, their ability to analyze EHRs remains limited due to narrow task coverage and lack of EHR-oriented reasoning capabilities. This paper aims to bridge the gap, specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning instruction dataset, comprising 300k high-quality reasoning cases and 4M non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a thinking-graph-driven framework that enables to generate high-quality reasoning data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage training paradigm, including domain adaptation, reasoning enhancement, and reinforcement learning, EHR-R1 systematically acquires domain knowledge and diverse reasoning capabilities, enabling accurate and robust EHR analysis. Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning 42 tasks, to comprehensively assess reasoning and prediction across EHR scenarios. In experiments, we show that the resulting EHR-R1 consistently outperforms state-of-the-art commercial and open-source LLMs (including DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins, EHR-R1, and EHR-Bench have significantly advanced the development for more reliable and clinically relevant EHR analysis.
PDF101December 2, 2025