ChatPaper.aiChatPaper

EHR-R1: 電子健康記録分析のための推論機能強化基盤言語モデル

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

October 29, 2025
著者: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI

要旨

電子健康記録(EHR)は豊富ながら複雑な情報を含み、その自動分析は臨床意思決定において極めて重要である。大規模言語モデル(LLM)の臨床ワークフローへの応用が近年進展しているものの、タスク範囲の狭さやEHR指向の推論能力の不足により、EHR分析能力は依然として限られている。本論文はこの課題の解決を目指し、特に42種類のEHRタスクにわたる30万件の高品質推論事例と400万件の非推論事例から構成される大規模包括的EHR推論指示データセット「EHR-Ins」を提案する。中核的革新は、思考グラフ駆動フレームワークにより大規模な高品質推論データ生成を可能にした点である。これを基盤に、EHR分析に特化した最大720億パラメータの推論機能強化型LLMシリーズ「EHR-R1」を開発した。ドメイン適応、推論強化、強化学習を含む多段階訓練パラダイムを通じて、EHR-R1は体系的に領域知識と多様な推論能力を獲得し、正確かつ頑健なEHR分析を実現する。最後に、MIMIC-IVから精選した42タスクにわたる新規ベンチマーク「EHR-Bench」を導入し、EHRシナリオにおける推論と予測を包括的に評価する。実験では、EHR-R1がDeepSeek-V3やGPT-4oを含む最先端の商用・オープンソースLLMを一貫して上回り、MIMIC-BenchではGPT-4oを30ポイント以上、EHRSHOTではゼロショットAUROCで10%高い性能を達成した。総じて、EHR-Ins、EHR-R1、EHR-Benchは信頼性が高く臨床関連性の強いEHR分析の発展に大きく貢献するものである。
English
Electronic Health Records (EHRs) contain rich yet complex information, and their automated analysis is critical for clinical decision-making. Despite recent advances of large language models (LLMs) in clinical workflows, their ability to analyze EHRs remains limited due to narrow task coverage and lack of EHR-oriented reasoning capabilities. This paper aims to bridge the gap, specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning instruction dataset, comprising 300k high-quality reasoning cases and 4M non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a thinking-graph-driven framework that enables to generate high-quality reasoning data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage training paradigm, including domain adaptation, reasoning enhancement, and reinforcement learning, EHR-R1 systematically acquires domain knowledge and diverse reasoning capabilities, enabling accurate and robust EHR analysis. Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning 42 tasks, to comprehensively assess reasoning and prediction across EHR scenarios. In experiments, we show that the resulting EHR-R1 consistently outperforms state-of-the-art commercial and open-source LLMs (including DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins, EHR-R1, and EHR-Bench have significantly advanced the development for more reliable and clinically relevant EHR analysis.
PDF101December 2, 2025