EHR-R1: Расширенная модель фундаментального языка с функциями логического вывода для анализа электронных медицинских карт

Аннотация

Электронные медицинские карты (ЭМК) содержат богатую, но сложную информацию, и их автоматизированный анализ крайне важен для клинического принятия решений. Несмотря на недавние успехи больших языковых моделей (БЯМ) в клинических процессах, их способность анализировать ЭМК остается ограниченной из-за узкого охвата задач и отсутствия возможностей рассуждений, ориентированных на ЭМК. Данная работа направлена на преодоление этого разрыва. В частности, мы представляем EHR-Ins — крупномасштабный, всеобъемлющий набор инструкций для рассуждений по ЭМК, содержащий 300 тысяч высококачественных примеров с рассуждениями и 4 миллиона примеров без рассуждений, охватывающих 42 различные задачи по работе с ЭМК. Его ключевая инновация — это фреймворк, управляемый графом мышления, который позволяет генерировать высококачественные данные для рассуждений в больших масштабах. На его основе мы разрабатываем EHR-R1 — серию улучшенных в плане рассуждений БЯМ с числом параметров до 72 миллиардов, адаптированных для анализа ЭМК. Благодаря многоэтапной парадигме обучения, включающей адаптацию к предметной области, усиление рассуждений и обучение с подкреплением, EHR-R1 систематически приобретает предметные знания и разнообразные способности к рассуждению, обеспечивая точный и надежный анализ ЭМК. Наконец, мы представляем EHR-Bench — новый бенчмарк, созданный на основе MIMIC-IV и охватывающий 42 задачи, для всесторонней оценки рассуждений и прогнозирования в сценариях работы с ЭМК. В экспериментах мы показываем, что полученная модель EHR-R1 последовательно превосходит передовые коммерческие и открытые БЯМ (включая DeepSeek-V3 и GPT-4o), опережая GPT-4o более чем на 30 баллов на MIMIC-Bench и демонстрируя на 10% более высокий AUROC в условиях zero-shot на EHRSHOT. В совокупности EHR-Ins, EHR-R1 и EHR-Bench значительно продвинули разработку в направлении более надежного и клинически релевантного анализа ЭМК.

English

Electronic Health Records (EHRs) contain rich yet complex information, and their automated analysis is critical for clinical decision-making. Despite recent advances of large language models (LLMs) in clinical workflows, their ability to analyze EHRs remains limited due to narrow task coverage and lack of EHR-oriented reasoning capabilities. This paper aims to bridge the gap, specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning instruction dataset, comprising 300k high-quality reasoning cases and 4M non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a thinking-graph-driven framework that enables to generate high-quality reasoning data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage training paradigm, including domain adaptation, reasoning enhancement, and reinforcement learning, EHR-R1 systematically acquires domain knowledge and diverse reasoning capabilities, enabling accurate and robust EHR analysis. Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning 42 tasks, to comprehensively assess reasoning and prediction across EHR scenarios. In experiments, we show that the resulting EHR-R1 consistently outperforms state-of-the-art commercial and open-source LLMs (including DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins, EHR-R1, and EHR-Bench have significantly advanced the development for more reliable and clinically relevant EHR analysis.

EHR-R1: Расширенная модель фундаментального языка с функциями логического вывода для анализа электронных медицинских карт

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

Аннотация

Support