ChatPaper.aiChatPaper

EHR-R1: un modello linguistico fondamentale potenziato per il ragionamento nell'analisi delle cartelle cliniche elettroniche

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

October 29, 2025
Autori: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI

Abstract

Le cartelle cliniche elettroniche (EHR) contengono informazioni ricche ma complesse, e la loro analisi automatizzata è fondamentale per il processo decisionale clinico. Nonostante i recenti progressi dei grandi modelli linguistici (LLM) nei flussi di lavoro clinici, la loro capacità di analizzare le EHR rimane limitata a causa della copertura ristretta dei compiti e della mancanza di capacità di ragionamento orientate alle EHR. Questo articolo mira a colmare questa lacuna; in particolare, presentiamo EHR-Ins, un ampio dataset di istruzioni per il ragionamento su EHR, comprendente 300k casi di ragionamento di alta qualità e 4M casi non di ragionamento relativi a 42 distinti compiti sulle EHR. La sua innovazione principale è un framework guidato da un thinking-graph che consente di generare dati di ragionamento di alta qualità su larga scala. Su questa base, sviluppiamo EHR-R1, una serie di LLM potenziati per il ragionamento con fino a 72B di parametri, specificamente progettati per l'analisi delle EHR. Attraverso un paradigma di addestramento multi-stadio, comprendente adattamento al dominio, potenziamento del ragionamento e apprendimento per rinforzo, EHR-R1 acquisisce sistematicamente conoscenza del dominio e capacità di ragionamento diversificate, consentendo un'analisi delle EHR accurata e robusta. Infine, introduciamo EHR-Bench, un nuovo benchmark curato a partire da MIMIC-IV, che copre 42 compiti, per valutare in modo completo il ragionamento e la predizione negli scenari EHR. Negli esperimenti, dimostriamo che il risultante EHR-R1 supera costantemente gli LLM commerciali e open-source all'avanguardia (inclusi DeepSeek-V3 e GPT-4o), superando GPT-4o di oltre 30 punti su MIMIC-Bench e raggiungendo un AUROC zero-shot del 10% più alto su EHRSHOT. Nel complesso, EHR-Ins, EHR-R1 ed EHR-Bench hanno fatto avanzare significativamente lo sviluppo verso un'analisi delle EHR più affidabile e clinicamente rilevante.
English
Electronic Health Records (EHRs) contain rich yet complex information, and their automated analysis is critical for clinical decision-making. Despite recent advances of large language models (LLMs) in clinical workflows, their ability to analyze EHRs remains limited due to narrow task coverage and lack of EHR-oriented reasoning capabilities. This paper aims to bridge the gap, specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning instruction dataset, comprising 300k high-quality reasoning cases and 4M non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a thinking-graph-driven framework that enables to generate high-quality reasoning data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage training paradigm, including domain adaptation, reasoning enhancement, and reinforcement learning, EHR-R1 systematically acquires domain knowledge and diverse reasoning capabilities, enabling accurate and robust EHR analysis. Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning 42 tasks, to comprehensively assess reasoning and prediction across EHR scenarios. In experiments, we show that the resulting EHR-R1 consistently outperforms state-of-the-art commercial and open-source LLMs (including DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins, EHR-R1, and EHR-Bench have significantly advanced the development for more reliable and clinically relevant EHR analysis.
PDF101December 2, 2025