EHR-R1: Un Modelo de Lenguaje Fundamental Mejorado para el Razonamiento en el Análisis de Registros Electrónicos de Salud
EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis
October 29, 2025
Autores: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI
Resumen
Los Registros de Salud Electrónicos (RSE) contienen información rica pero compleja, y su análisis automatizado es crucial para la toma de decisiones clínicas. A pesar de los recientes avances de los modelos de lenguaje grandes (LLM) en los flujos de trabajo clínicos, su capacidad para analizar RSE sigue siendo limitada debido a una cobertura estrecha de tareas y a la falta de capacidades de razonamiento orientadas a RSE. Este artículo pretende cerrar esta brecha; específicamente, presentamos EHR-Ins, un conjunto de datos de instrucciones de razonamiento sobre RSE a gran escala y exhaustivo, que comprende 300k casos de razonamiento de alta calidad y 4M casos de no razonamiento en 42 tareas distintas de RSE. Su innovación central es un marco impulsado por un grafo de pensamiento que permite generar datos de razonamiento de alta calidad a escala. Sobre esta base, desarrollamos EHR-R1, una serie de LLM potenciados para el razonamiento con hasta 72B parámetros, diseñados específicamente para el análisis de RSE. Mediante un paradigma de entrenamiento multietapa, que incluye adaptación de dominio, mejora del razonamiento y aprendizaje por refuerzo, EHR-R1 adquiere sistemáticamente conocimiento del dominio y diversas capacidades de razonamiento, permitiendo un análisis de RSE preciso y robusto. Por último, presentamos EHR-Bench, un nuevo punto de referencia creado a partir de MIMIC-IV, que abarca 42 tareas, para evaluar de manera integral el razonamiento y la predicción en escenarios de RSE. En los experimentos, demostramos que el EHR-R1 resultante supera consistentemente a los LLM comerciales y de código abierto más avanzados (incluyendo DeepSeek-V3 y GPT-4o), superando a GPT-4o por más de 30 puntos en MIMIC-Bench y logrando un AUROC en zero-shot un 10% mayor en EHRSHOT. En conjunto, EHR-Ins, EHR-R1 y EHR-Bench han avanzado significativamente el desarrollo hacia un análisis de RSE más fiable y clínicamente relevante.
English
Electronic Health Records (EHRs) contain rich yet complex information, and
their automated analysis is critical for clinical decision-making. Despite
recent advances of large language models (LLMs) in clinical workflows, their
ability to analyze EHRs remains limited due to narrow task coverage and lack of
EHR-oriented reasoning capabilities. This paper aims to bridge the gap,
specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning
instruction dataset, comprising 300k high-quality reasoning cases and 4M
non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a
thinking-graph-driven framework that enables to generate high-quality reasoning
data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced
LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage
training paradigm, including domain adaptation, reasoning enhancement, and
reinforcement learning, EHR-R1 systematically acquires domain knowledge and
diverse reasoning capabilities, enabling accurate and robust EHR analysis.
Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning
42 tasks, to comprehensively assess reasoning and prediction across EHR
scenarios. In experiments, we show that the resulting EHR-R1 consistently
outperforms state-of-the-art commercial and open-source LLMs (including
DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and
achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins,
EHR-R1, and EHR-Bench have significantly advanced the development for more
reliable and clinically relevant EHR analysis.