EHR-R1: Un Modelo de Lenguaje Fundamental Mejorado para el Razonamiento en el Análisis de Registros Electrónicos de Salud

Resumen

Los Registros de Salud Electrónicos (RSE) contienen información rica pero compleja, y su análisis automatizado es crucial para la toma de decisiones clínicas. A pesar de los recientes avances de los modelos de lenguaje grandes (LLM) en los flujos de trabajo clínicos, su capacidad para analizar RSE sigue siendo limitada debido a una cobertura estrecha de tareas y a la falta de capacidades de razonamiento orientadas a RSE. Este artículo pretende cerrar esta brecha; específicamente, presentamos EHR-Ins, un conjunto de datos de instrucciones de razonamiento sobre RSE a gran escala y exhaustivo, que comprende 300k casos de razonamiento de alta calidad y 4M casos de no razonamiento en 42 tareas distintas de RSE. Su innovación central es un marco impulsado por un grafo de pensamiento que permite generar datos de razonamiento de alta calidad a escala. Sobre esta base, desarrollamos EHR-R1, una serie de LLM potenciados para el razonamiento con hasta 72B parámetros, diseñados específicamente para el análisis de RSE. Mediante un paradigma de entrenamiento multietapa, que incluye adaptación de dominio, mejora del razonamiento y aprendizaje por refuerzo, EHR-R1 adquiere sistemáticamente conocimiento del dominio y diversas capacidades de razonamiento, permitiendo un análisis de RSE preciso y robusto. Por último, presentamos EHR-Bench, un nuevo punto de referencia creado a partir de MIMIC-IV, que abarca 42 tareas, para evaluar de manera integral el razonamiento y la predicción en escenarios de RSE. En los experimentos, demostramos que el EHR-R1 resultante supera consistentemente a los LLM comerciales y de código abierto más avanzados (incluyendo DeepSeek-V3 y GPT-4o), superando a GPT-4o por más de 30 puntos en MIMIC-Bench y logrando un AUROC en zero-shot un 10% mayor en EHRSHOT. En conjunto, EHR-Ins, EHR-R1 y EHR-Bench han avanzado significativamente el desarrollo hacia un análisis de RSE más fiable y clínicamente relevante.

English

Electronic Health Records (EHRs) contain rich yet complex information, and their automated analysis is critical for clinical decision-making. Despite recent advances of large language models (LLMs) in clinical workflows, their ability to analyze EHRs remains limited due to narrow task coverage and lack of EHR-oriented reasoning capabilities. This paper aims to bridge the gap, specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning instruction dataset, comprising 300k high-quality reasoning cases and 4M non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a thinking-graph-driven framework that enables to generate high-quality reasoning data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage training paradigm, including domain adaptation, reasoning enhancement, and reinforcement learning, EHR-R1 systematically acquires domain knowledge and diverse reasoning capabilities, enabling accurate and robust EHR analysis. Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning 42 tasks, to comprehensively assess reasoning and prediction across EHR scenarios. In experiments, we show that the resulting EHR-R1 consistently outperforms state-of-the-art commercial and open-source LLMs (including DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins, EHR-R1, and EHR-Bench have significantly advanced the development for more reliable and clinically relevant EHR analysis.

EHR-R1: Un Modelo de Lenguaje Fundamental Mejorado para el Razonamiento en el Análisis de Registros Electrónicos de Salud

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

Resumen

Support