EHR-R1: Een Redeneerversterkt Fundamentaal Taalmodel voor Analyse van Elektronische Patiëntendossiers
EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis
October 29, 2025
Auteurs: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI
Samenvatting
Elektronische Patiëntendossiers (EPD's) bevatten rijke maar complexe informatie, en hun geautomatiseerde analyse is cruciaal voor klinische besluitvorming. Ondanks recente vooruitgang van grote taalmodelen (LLM's) in klinische workflows, blijft hun vermogen om EPD's te analyseren beperkt vanwege smalle taakdekking en een gebrek aan EPD-gerichte redeneervaardigheden. Dit artikel beoogt deze kloof te overbruggen. Concreet presenteren we EHR-Ins, een grootschalige, uitgebreide EPD-redeneerinstructiedataset, bestaande uit 300k hoogwaardige redeneergevallen en 4M niet-redeneergevallen verspreid over 42 verschillende EPD-taken. De kerninnovatie is een denkgrafiek-gestuurd framework dat het mogelijk maakt om op grote schaal hoogwaardige redeneergegevens te genereren. Op basis hiervan ontwikkelen we EHR-R1, een reeks redeneerversterkte LLM's met tot 72B parameters, toegesneden op EPD-analyse. Via een meerfasen-trainingsparadigma, inclusief domeinaanpassing, redeneerversterking en reinforcement learning, verwerft EHR-R1 systematisch domeinkennis en diverse redeneervaardigheden, wat nauwkeurige en robuuste EPD-analyse mogelijk maakt. Ten slotte introduceren we EHR-Bench, een nieuwe benchmark samengesteld uit MIMIC-IV, die 42 taken omvat, om redeneren en voorspellen in EPD-scenario's uitgebreid te evalueren. In experimenten tonen we aan dat het resulterende EHR-R1 consequent superieure prestaties levert vergeleken met state-of-the-art commerciële en open-source LLM's (inclusief DeepSeek-V3 en GPT-4o), GPT-4o met meer dan 30 punten overtreft op MIMIC-Bench en een 10% hogere zero-shot AUROC behaalt op EHRSHOT. Gezamenlijk hebben EHR-Ins, EHR-R1 en EHR-Bench de ontwikkeling richting betrouwbaardere en klinisch relevantere EPD-analyse significant vooruitgeholpen.
English
Electronic Health Records (EHRs) contain rich yet complex information, and
their automated analysis is critical for clinical decision-making. Despite
recent advances of large language models (LLMs) in clinical workflows, their
ability to analyze EHRs remains limited due to narrow task coverage and lack of
EHR-oriented reasoning capabilities. This paper aims to bridge the gap,
specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning
instruction dataset, comprising 300k high-quality reasoning cases and 4M
non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a
thinking-graph-driven framework that enables to generate high-quality reasoning
data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced
LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage
training paradigm, including domain adaptation, reasoning enhancement, and
reinforcement learning, EHR-R1 systematically acquires domain knowledge and
diverse reasoning capabilities, enabling accurate and robust EHR analysis.
Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning
42 tasks, to comprehensively assess reasoning and prediction across EHR
scenarios. In experiments, we show that the resulting EHR-R1 consistently
outperforms state-of-the-art commercial and open-source LLMs (including
DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and
achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins,
EHR-R1, and EHR-Bench have significantly advanced the development for more
reliable and clinically relevant EHR analysis.