EHR-R1: Ein grundlegendes Sprachmodell mit erweitertem Reasoning für die Analyse elektronischer Patientenakten
EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis
October 29, 2025
papers.authors: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI
papers.abstract
Elektronische Gesundheitsakten (EHRs) enthalten umfangreiche, aber komplexe Informationen, und ihre automatisierte Analyse ist entscheidend für klinische Entscheidungsfindungen. Trotz jüngster Fortschritte großer Sprachmodelle (LLMs) in klinischen Arbeitsabläufen bleibt ihre Fähigkeit, EHRs zu analysieren, aufgrund begrenzter Aufgabenabdeckung und fehlender EHR-orientierter Reasoning-Fähigkeiten eingeschränkt. Diese Arbeit zielt darauf ab, diese Lücke zu schließen. Konkret stellen wir EHR-Ins vor, einen umfangreichen, umfassenden EHR-Reasoning-Instruktionsdatensatz, der 300.000 hochwertige Reasoning-Fälle und 4 Millionen Nicht-Reasoning-Fälle über 42 verschiedene EHR-Aufgaben hinweg umfasst. Seine zentrale Innovation ist ein Thinking-Graph-gesteuertes Framework, das die Erzeugung hochwertiger Reasoning-Daten in großem Maßstab ermöglicht. Darauf aufbauend entwickeln wir EHR-R1, eine Reihe von Reasoning-verstärkten LLMs mit bis zu 72B Parametern, die speziell für die EHR-Analyse ausgelegt sind. Durch ein mehrstufiges Trainingsparadigma, einschließlich Domänenanpassung, Reasoning-Verbesserung und bestärkendem Lernen, eignet sich EHR-R1 systematisch Domänenwissen und vielfältige Reasoning-Fähigkeiten an, um eine genaue und robuste EHR-Analyse zu ermöglichen. Schließlich führen wir EHR-Bench ein, einen neuen, aus MIMIC-IV kuratierten Benchmark, der 42 Aufgaben umfasst, um Reasoning und Vorhersage über EHR-Szenarien hinweg umfassend zu bewerten. In Experimenten zeigen wir, dass das resultierende EHR-R1 durchgängig state-of-the-art kommerzielle und Open-Source-LLMs (einschließlich DeepSeek-V3 und GPT-4o) übertrifft, GPT-4o auf MIMIC-Bench um über 30 Punkte überragt und einen um 10 % höheren Zero-Shot-AUROC auf EHRSHOT erreicht. Zusammengenommen haben EHR-Ins, EHR-R1 und EHR-Bench die Entwicklung zuverlässigerer und klinisch relevanterer EHR-Analysen erheblich vorangetrieben.
English
Electronic Health Records (EHRs) contain rich yet complex information, and
their automated analysis is critical for clinical decision-making. Despite
recent advances of large language models (LLMs) in clinical workflows, their
ability to analyze EHRs remains limited due to narrow task coverage and lack of
EHR-oriented reasoning capabilities. This paper aims to bridge the gap,
specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning
instruction dataset, comprising 300k high-quality reasoning cases and 4M
non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a
thinking-graph-driven framework that enables to generate high-quality reasoning
data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced
LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage
training paradigm, including domain adaptation, reasoning enhancement, and
reinforcement learning, EHR-R1 systematically acquires domain knowledge and
diverse reasoning capabilities, enabling accurate and robust EHR analysis.
Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning
42 tasks, to comprehensively assess reasoning and prediction across EHR
scenarios. In experiments, we show that the resulting EHR-R1 consistently
outperforms state-of-the-art commercial and open-source LLMs (including
DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and
achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins,
EHR-R1, and EHR-Bench have significantly advanced the development for more
reliable and clinically relevant EHR analysis.