EHR-R1 : Un modèle de langage fondamental à raisonnement amélioré pour l'analyse des dossiers de santé électroniques

papers.abstract

Les dossiers médicaux électroniques (DME) contiennent des informations riches mais complexes, et leur analyse automatisée est cruciale pour la prise de décision clinique. Malgré les progrès récents des grands modèles de langage (LLM) dans les flux de travail cliniques, leur capacité à analyser les DME reste limitée en raison d'une couverture étroite des tâches et d'un manque de capacités de raisonnement orientées DME. Cet article vise à combler cette lacune. Plus précisément, nous présentons EHR-Ins, un jeu de données d'instructions de raisonnement sur les DME à grande échelle et complet, comprenant 300 000 cas de raisonnement de haute qualité et 4 millions de cas sans raisonnement couvrant 42 tâches distinctes liées aux DME. Son innovation centrale est un cadre piloté par un graphe de réflexion qui permet de générer à grande échelle des données de raisonnement de haute qualité. Sur cette base, nous développons EHR-R1, une série de LLM optimisés pour le raisonnement, comptant jusqu'à 72 milliards de paramètres et conçus pour l'analyse des DME. Grâce à un paradigme de formation multi-étapes, incluant l'adaptation au domaine, l'amélioration du raisonnement et l'apprentissage par renforcement, EHR-R1 acquiert systématiquement des connaissances du domaine et des capacités de raisonnement diversifiées, permettant une analyse précise et robuste des DME. Enfin, nous présentons EHR-Bench, un nouveau benchmark constitué à partir de MIMIC-IV, couvrant 42 tâches, pour évaluer de manière exhaustive le raisonnement et la prédiction dans divers scénarios de DME. Lors des expériences, nous montrons que le modèle résultant, EHR-R1, surpasse constamment les LLM commerciaux et open-source les plus avancés (y compris DeepSeek-V3 et GPT-4o), devançant GPT-4o de plus de 30 points sur MIMIC-Bench et atteignant un AUROC en zero-shot supérieur de 10 % sur EHRSHOT. Collectivement, EHR-Ins, EHR-R1 et EHR-Bench ont significativement fait progresser le développement d'analyses de DME plus fiables et pertinentes sur le plan clinique.

English

Electronic Health Records (EHRs) contain rich yet complex information, and their automated analysis is critical for clinical decision-making. Despite recent advances of large language models (LLMs) in clinical workflows, their ability to analyze EHRs remains limited due to narrow task coverage and lack of EHR-oriented reasoning capabilities. This paper aims to bridge the gap, specifically, we present EHR-Ins, a large-scale, comprehensive EHR reasoning instruction dataset, comprising 300k high-quality reasoning cases and 4M non-reasoning cases across 42 distinct EHR tasks. Its core innovation is a thinking-graph-driven framework that enables to generate high-quality reasoning data at scale. Based on it, we develop EHR-R1, a series of reasoning-enhanced LLMs with up to 72B parameters tailored for EHR analysis. Through a multi-stage training paradigm, including domain adaptation, reasoning enhancement, and reinforcement learning, EHR-R1 systematically acquires domain knowledge and diverse reasoning capabilities, enabling accurate and robust EHR analysis. Lastly, we introduce EHR-Bench, a new benchmark curated from MIMIC-IV, spanning 42 tasks, to comprehensively assess reasoning and prediction across EHR scenarios. In experiments, we show that the resulting EHR-R1 consistently outperforms state-of-the-art commercial and open-source LLMs (including DeepSeek-V3 and GPT-4o), surpassing GPT-4o by over 30 points on MIMIC-Bench and achieving a 10\% higher zero-shot AUROC on EHRSHOT. Collectively, EHR-Ins, EHR-R1, and EHR-Bench have significantly advanced the development for more reliable and clinically relevant EHR analysis.

EHR-R1 : Un modèle de langage fondamental à raisonnement amélioré pour l'analyse des dossiers de santé électroniques

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis

papers.abstract

Support