TRIAGE : Raisonnement dialectique pour la prédiction de risque explicable sur des séries temporelles médicales échantillonnées irrégulièrement avec des LLMs

Résumé

Les systèmes d'alerte précoce cliniques basés sur les dossiers de santé électroniques, dans lesquels les observations cliniques sont enregistrées sous forme de séries temporelles médicales échantillonnées de manière irrégulière (STMÉI), doivent fournir à la fois des scores de risque calibrés pour le triage des patients et des justifications interprétables que les cliniciens peuvent vérifier. Les grands modèles de langage (LLM) ont été explorés pour cette tâche, mais ils réduisent le risque clinique gradué en prédictions binaires trop confiantes. Cette polarisation du risque compromet à la fois la calibration et la comparabilité entre patients. Pour y remédier, nous proposons TRIAGE, un cadre qui entraîne un LLM à générer un raisonnement dialectique sur des issues cliniques concurrentes en suscitant des justifications spécifiques à chaque issue. Cette formulation dialectique atténue la polarisation du risque, permettant à un seul LLM de produire des scores de risque continus ancrés dans un raisonnement clinique explicite. Évalué sur trois benchmarks STMÉI, TRIAGE atteint une amélioration moyenne de l'AUPRC de 3,3 % et réduit l'erreur de calibration de 81 % par rapport aux bases de référence concurrentes. Une évaluation par LLM comme juge montre en outre que nos justifications surpassent de 20 % les explications a posteriori issues de la base de référence en termes de qualité du raisonnement clinique. Le code source est disponible à l'adresse https://github.com/HyeongWon-Jang/TRIAGE.

English

Clinical early warning systems built on electronic health records, in which clinical observations are recorded as irregularly sampled medical time series (ISMTS), must deliver both calibrated risk scores for patient triage and interpretable rationales that clinicians can verify. Large Language Models (LLMs) have been explored for this task, yet they collapse graded clinical risk into overconfident binary predictions. This risk polarization undermines both calibration and cross-patient comparability. To address this, we propose TRIAGE, a framework that trains an LLM to generate dialectical reasoning over competing clinical outcomes by eliciting outcome-specific rationales. This dialectical formulation mitigates risk polarization, enabling a single LLM to yield continuous risk scores grounded in explicit clinical reasoning. Evaluated on three ISMTS benchmarks, TRIAGE achieves an average AUPRC improvement of 3.3% and reduces calibration error by 81% compared to the competitive baselines. An LLM-as-a-judge assessment further shows that our rationales surpass post-hoc explanations from the baseline by 20% in clinical reasoning quality. The source code is available at https://github.com/HyeongWon-Jang/TRIAGE .