EHR-R1: Een Redeneerversterkt Fundamentaal Taalmodel voor Analyse van Elektronische Patiëntendossiers

Samenvatting

Elektronische Patiëntendossiers (EPD's) bevatten rijke maar complexe informatie, en hun geautomatiseerde analyse is cruciaal voor klinische besluitvorming. Ondanks recente vooruitgang van grote taalmodelen (LLM's) in klinische workflows, blijft hun vermogen om EPD's te analyseren beperkt vanwege smalle taakdekking en een gebrek aan EPD-gerichte redeneervaardigheden. Dit artikel beoogt deze kloof te overbruggen. Concreet presenteren we EHR-Ins, een grootschalige, uitgebreide EPD-redeneerinstructiedataset, bestaande uit 300k hoogwaardige redeneergevallen en 4M niet-redeneergevallen verspreid over 42 verschillende EPD-taken. De kerninnovatie is een denkgrafiek-gestuurd framework dat het mogelijk maakt om op grote schaal hoogwaardige redeneergegevens te genereren. Op basis hiervan ontwikkelen we EHR-R1, een reeks redeneerversterkte LLM's met tot 72B parameters, toegesneden op EPD-analyse. Via een meerfasen-trainingsparadigma, inclusief domeinaanpassing, redeneerversterking en reinforcement learning, verwerft EHR-R1 systematisch domeinkennis en diverse redeneervaardigheden, wat nauwkeurige en robuuste EPD-analyse mogelijk maakt. Ten slotte introduceren we EHR-Bench, een nieuwe benchmark samengesteld uit MIMIC-IV, die 42 taken omvat, om redeneren en voorspellen in EPD-scenario's uitgebreid te evalueren. In experimenten tonen we aan dat het resulterende EHR-R1 consequent superieure prestaties levert vergeleken met state-of-the-art commerciële en open-source LLM's (inclusief DeepSeek-V3 en GPT-4o), GPT-4o met meer dan 30 punten overtreft op MIMIC-Bench en een 10% hogere zero-shot AUROC behaalt op EHRSHOT. Gezamenlijk hebben EHR-Ins, EHR-R1 en EHR-Bench de ontwikkeling richting betrouwbaardere en klinisch relevantere EPD-analyse significant vooruitgeholpen.

English

Electronic Health Records (EHRs) contain rich yet complex information, and their automated analysis is critical for clinical decision-making. Despite recent advances of large language models (LLMs) in clinical workflows, their ability to analyze EHRs remains limited due to narrow task coverage and lack of EHR-oriented reasoning capabilities. This paper aims to bridge the gap, specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning instruction dataset, comprising 300k high-quality reasoning cases and 4M non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a thinking-graph-driven framework that enables to generate high-quality reasoning data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage training paradigm, including domain adaptation, reasoning enhancement, and reinforcement learning, EHR-R1 systematically acquires domain knowledge and diverse reasoning capabilities, enabling accurate and robust EHR analysis. Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning 42 tasks, to comprehensively assess reasoning and prediction across EHR scenarios. In experiments, we show that the resulting EHR-R1 consistently outperforms state-of-the-art commercial and open-source LLMs (including DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins, EHR-R1, and EHR-Bench have significantly advanced the development for more reliable and clinically relevant EHR analysis.

EHR-R1: Een Redeneerversterkt Fundamentaal Taalmodel voor Analyse van Elektronische Patiëntendossiers

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

Samenvatting

Support