ChatPaper.aiChatPaper

EHR-R1: Um Modelo de Linguagem Fundamental Aprimorado com Raciocínio para Análise de Prontuários Eletrônicos

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

October 29, 2025
Autores: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI

Resumo

Os Registros Eletrônicos de Saúde (RES) contêm informações ricas, porém complexas, e sua análise automatizada é crucial para a tomada de decisões clínicas. Apesar dos avanços recentes dos grandes modelos de linguagem (LLMs) nos fluxos de trabalho clínicos, sua capacidade de analisar RES permanece limitada devido à cobertura restrita de tarefas e à falta de capacidades de raciocínio orientadas para RES. Este artigo visa preencher essa lacuna; especificamente, apresentamos o EHR-Ins, um conjunto de dados de instruções de raciocínio em RES em larga escala e abrangente, composto por 300 mil casos de raciocínio de alta qualidade e 4 milhões de casos sem raciocínio, abrangendo 42 tarefas distintas de RES. Sua principal inovação é uma estrutura orientada por grafo de pensamento que permite gerar dados de raciocínio de alta qualidade em escala. Com base nisso, desenvolvemos o EHR-R1, uma série de LLMs com aprimoramento de raciocínio com até 72 bilhões de parâmetros, adaptados para análise de RES. Por meio de um paradigma de treinamento multiestágio, incluindo adaptação de domínio, aprimoramento de raciocínio e aprendizado por reforço, o EHR-R1 adquire sistematicamente conhecimento de domínio e capacidades diversificadas de raciocínio, permitindo uma análise de RES precisa e robusta. Por fim, introduzimos o EHR-Bench, um novo benchmark curado a partir do MIMIC-IV, abrangendo 42 tarefas, para avaliar de forma abrangente o raciocínio e a previsão em cenários de RES. Nos experimentos, mostramos que o EHR-R1 resultante supera consistentemente os LLMs comerciais e de código aberto mais avançados (incluindo DeepSeek-V3 e GPT-4o), ultrapassando o GPT-4o em mais de 30 pontos no MIMIC-Bench e alcançando um AUROC 10% maior em modo *zero-shot* no EHRSHOT. Coletivamente, EHR-Ins, EHR-R1 e EHR-Bench avançaram significativamente o desenvolvimento para uma análise de RES mais confiável e clinicamente relevante.
English
Electronic Health Records (EHRs) contain rich yet complex information, and their automated analysis is critical for clinical decision-making. Despite recent advances of large language models (LLMs) in clinical workflows, their ability to analyze EHRs remains limited due to narrow task coverage and lack of EHR-oriented reasoning capabilities. This paper aims to bridge the gap, specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning instruction dataset, comprising 300k high-quality reasoning cases and 4M non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a thinking-graph-driven framework that enables to generate high-quality reasoning data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage training paradigm, including domain adaptation, reasoning enhancement, and reinforcement learning, EHR-R1 systematically acquires domain knowledge and diverse reasoning capabilities, enabling accurate and robust EHR analysis. Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning 42 tasks, to comprehensively assess reasoning and prediction across EHR scenarios. In experiments, we show that the resulting EHR-R1 consistently outperforms state-of-the-art commercial and open-source LLMs (including DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins, EHR-R1, and EHR-Bench have significantly advanced the development for more reliable and clinically relevant EHR analysis.
PDF101December 2, 2025