ChatPaper.aiChatPaper

EHR-R1: Расширенная модель фундаментального языка с функциями логического вывода для анализа электронных медицинских карт

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

October 29, 2025
Авторы: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI

Аннотация

Электронные медицинские карты (ЭМК) содержат богатую, но сложную информацию, и их автоматизированный анализ крайне важен для клинического принятия решений. Несмотря на недавние успехи больших языковых моделей (БЯМ) в клинических процессах, их способность анализировать ЭМК остается ограниченной из-за узкого охвата задач и отсутствия возможностей рассуждений, ориентированных на ЭМК. Данная работа направлена на преодоление этого разрыва. В частности, мы представляем EHR-Ins — крупномасштабный, всеобъемлющий набор инструкций для рассуждений по ЭМК, содержащий 300 тысяч высококачественных примеров с рассуждениями и 4 миллиона примеров без рассуждений, охватывающих 42 различные задачи по работе с ЭМК. Его ключевая инновация — это фреймворк, управляемый графом мышления, который позволяет генерировать высококачественные данные для рассуждений в больших масштабах. На его основе мы разрабатываем EHR-R1 — серию улучшенных в плане рассуждений БЯМ с числом параметров до 72 миллиардов, адаптированных для анализа ЭМК. Благодаря многоэтапной парадигме обучения, включающей адаптацию к предметной области, усиление рассуждений и обучение с подкреплением, EHR-R1 систематически приобретает предметные знания и разнообразные способности к рассуждению, обеспечивая точный и надежный анализ ЭМК. Наконец, мы представляем EHR-Bench — новый бенчмарк, созданный на основе MIMIC-IV и охватывающий 42 задачи, для всесторонней оценки рассуждений и прогнозирования в сценариях работы с ЭМК. В экспериментах мы показываем, что полученная модель EHR-R1 последовательно превосходит передовые коммерческие и открытые БЯМ (включая DeepSeek-V3 и GPT-4o), опережая GPT-4o более чем на 30 баллов на MIMIC-Bench и демонстрируя на 10% более высокий AUROC в условиях zero-shot на EHRSHOT. В совокупности EHR-Ins, EHR-R1 и EHR-Bench значительно продвинули разработку в направлении более надежного и клинически релевантного анализа ЭМК.
English
Electronic Health Records (EHRs) contain rich yet complex information, and their automated analysis is critical for clinical decision-making. Despite recent advances of large language models (LLMs) in clinical workflows, their ability to analyze EHRs remains limited due to narrow task coverage and lack of EHR-oriented reasoning capabilities. This paper aims to bridge the gap, specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning instruction dataset, comprising 300k high-quality reasoning cases and 4M non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a thinking-graph-driven framework that enables to generate high-quality reasoning data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage training paradigm, including domain adaptation, reasoning enhancement, and reinforcement learning, EHR-R1 systematically acquires domain knowledge and diverse reasoning capabilities, enabling accurate and robust EHR analysis. Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning 42 tasks, to comprehensively assess reasoning and prediction across EHR scenarios. In experiments, we show that the resulting EHR-R1 consistently outperforms state-of-the-art commercial and open-source LLMs (including DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins, EHR-R1, and EHR-Bench have significantly advanced the development for more reliable and clinically relevant EHR analysis.
PDF101December 2, 2025