EHR-R1: Расширенная модель фундаментального языка с функциями логического вывода для анализа электронных медицинских карт
EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis
October 29, 2025
Авторы: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI
Аннотация
Электронные медицинские карты (ЭМК) содержат богатую, но сложную информацию, и их автоматизированный анализ крайне важен для клинического принятия решений. Несмотря на недавние успехи больших языковых моделей (БЯМ) в клинических процессах, их способность анализировать ЭМК остается ограниченной из-за узкого охвата задач и отсутствия возможностей рассуждений, ориентированных на ЭМК. Данная работа направлена на преодоление этого разрыва. В частности, мы представляем EHR-Ins — крупномасштабный, всеобъемлющий набор инструкций для рассуждений по ЭМК, содержащий 300 тысяч высококачественных примеров с рассуждениями и 4 миллиона примеров без рассуждений, охватывающих 42 различные задачи по работе с ЭМК. Его ключевая инновация — это фреймворк, управляемый графом мышления, который позволяет генерировать высококачественные данные для рассуждений в больших масштабах. На его основе мы разрабатываем EHR-R1 — серию улучшенных в плане рассуждений БЯМ с числом параметров до 72 миллиардов, адаптированных для анализа ЭМК. Благодаря многоэтапной парадигме обучения, включающей адаптацию к предметной области, усиление рассуждений и обучение с подкреплением, EHR-R1 систематически приобретает предметные знания и разнообразные способности к рассуждению, обеспечивая точный и надежный анализ ЭМК. Наконец, мы представляем EHR-Bench — новый бенчмарк, созданный на основе MIMIC-IV и охватывающий 42 задачи, для всесторонней оценки рассуждений и прогнозирования в сценариях работы с ЭМК. В экспериментах мы показываем, что полученная модель EHR-R1 последовательно превосходит передовые коммерческие и открытые БЯМ (включая DeepSeek-V3 и GPT-4o), опережая GPT-4o более чем на 30 баллов на MIMIC-Bench и демонстрируя на 10% более высокий AUROC в условиях zero-shot на EHRSHOT. В совокупности EHR-Ins, EHR-R1 и EHR-Bench значительно продвинули разработку в направлении более надежного и клинически релевантного анализа ЭМК.
English
Electronic Health Records (EHRs) contain rich yet complex information, and
their automated analysis is critical for clinical decision-making. Despite
recent advances of large language models (LLMs) in clinical workflows, their
ability to analyze EHRs remains limited due to narrow task coverage and lack of
EHR-oriented reasoning capabilities. This paper aims to bridge the gap,
specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning
instruction dataset, comprising 300k high-quality reasoning cases and 4M
non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a
thinking-graph-driven framework that enables to generate high-quality reasoning
data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced
LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage
training paradigm, including domain adaptation, reasoning enhancement, and
reinforcement learning, EHR-R1 systematically acquires domain knowledge and
diverse reasoning capabilities, enabling accurate and robust EHR analysis.
Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning
42 tasks, to comprehensively assess reasoning and prediction across EHR
scenarios. In experiments, we show that the resulting EHR-R1 consistently
outperforms state-of-the-art commercial and open-source LLMs (including
DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and
achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins,
EHR-R1, and EHR-Bench have significantly advanced the development for more
reliable and clinically relevant EHR analysis.