EHR-R1 : Un modèle de langage fondamental à raisonnement amélioré pour l'analyse des dossiers de santé électroniques
EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis
October 29, 2025
papers.authors: Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
cs.AI
papers.abstract
Les dossiers médicaux électroniques (DME) contiennent des informations riches mais complexes, et leur analyse automatisée est cruciale pour la prise de décision clinique. Malgré les progrès récents des grands modèles de langage (LLM) dans les flux de travail cliniques, leur capacité à analyser les DME reste limitée en raison d'une couverture étroite des tâches et d'un manque de capacités de raisonnement orientées DME. Cet article vise à combler cette lacune. Plus précisément, nous présentons EHR-Ins, un jeu de données d'instructions de raisonnement sur les DME à grande échelle et complet, comprenant 300 000 cas de raisonnement de haute qualité et 4 millions de cas sans raisonnement couvrant 42 tâches distinctes liées aux DME. Son innovation centrale est un cadre piloté par un graphe de réflexion qui permet de générer à grande échelle des données de raisonnement de haute qualité. Sur cette base, nous développons EHR-R1, une série de LLM optimisés pour le raisonnement, comptant jusqu'à 72 milliards de paramètres et conçus pour l'analyse des DME. Grâce à un paradigme de formation multi-étapes, incluant l'adaptation au domaine, l'amélioration du raisonnement et l'apprentissage par renforcement, EHR-R1 acquiert systématiquement des connaissances du domaine et des capacités de raisonnement diversifiées, permettant une analyse précise et robuste des DME. Enfin, nous présentons EHR-Bench, un nouveau benchmark constitué à partir de MIMIC-IV, couvrant 42 tâches, pour évaluer de manière exhaustive le raisonnement et la prédiction dans divers scénarios de DME. Lors des expériences, nous montrons que le modèle résultant, EHR-R1, surpasse constamment les LLM commerciaux et open-source les plus avancés (y compris DeepSeek-V3 et GPT-4o), devançant GPT-4o de plus de 30 points sur MIMIC-Bench et atteignant un AUROC en zero-shot supérieur de 10 % sur EHRSHOT. Collectivement, EHR-Ins, EHR-R1 et EHR-Bench ont significativement fait progresser le développement d'analyses de DME plus fiables et pertinentes sur le plan clinique.
English
Electronic Health Records (EHRs) contain rich yet complex information, and
their automated analysis is critical for clinical decision-making. Despite
recent advances of large language models (LLMs) in clinical workflows, their
ability to analyze EHRs remains limited due to narrow task coverage and lack of
EHR-oriented reasoning capabilities. This paper aims to bridge the gap,
specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning
instruction dataset, comprising 300k high-quality reasoning cases and 4M
non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a
thinking-graph-driven framework that enables to generate high-quality reasoning
data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced
LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage
training paradigm, including domain adaptation, reasoning enhancement, and
reinforcement learning, EHR-R1 systematically acquires domain knowledge and
diverse reasoning capabilities, enabling accurate and robust EHR analysis.
Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning
42 tasks, to comprehensively assess reasoning and prediction across EHR
scenarios. In experiments, we show that the resulting EHR-R1 consistently
outperforms state-of-the-art commercial and open-source LLMs (including
DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and
achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins,
EHR-R1, and EHR-Bench have significantly advanced the development for more
reliable and clinically relevant EHR analysis.