TRIAGE: Dialectische Redenering voor Uitlegbare Risicovoorspelling op Onregelmatig Bemonsterde Medische Tijdreeksen met LLM's

Samenvatting

Klinische vroege waarschuwingssystemen die zijn gebouwd op elektronische patiëntendossiers, waarin klinische waarnemingen worden vastgelegd als onregelmatig bemonsterde medische tijdreeksen (ISMTS), moeten zowel gekalibreerde risicoscores voor patiëntentriage als interpreteerbare onderbouwingen leveren die clinici kunnen verifiëren. Grote taalmodellen (LLM's) zijn onderzocht voor deze taak, maar zij reduceren gegradeerd klinisch risico tot overmoedige binaire voorspellingen. Deze risicopolarisatie ondermijnt zowel de kalibratie als de vergelijkbaarheid tussen patiënten. Om dit aan te pakken, stellen we TRIAGE voor, een raamwerk dat een LLM traint om dialectische redeneringen te genereren over concurrerende klinische uitkomsten door uitkomstspecifieke onderbouwingen te ontlokken. Deze dialectische formulering vermindert risicopolarisatie, waardoor een enkel LLM continue risicoscores kan produceren die zijn gebaseerd op expliciete klinische redenering. Geëvalueerd op drie ISMTS-benchmarks, behaalt TRIAGE een gemiddelde AUPRC-verbetering van 3,3% en vermindert het de kalibratiefout met 81% in vergelijking met de competitieve basislijnen. Een LLM-als-rechter beoordeling toont verder aan dat onze onderbouwingen de post-hoc verklaringen van de basislijn met 20% overtreffen in klinische redeneerkwaliteit. De broncode is beschikbaar op https://github.com/HyeongWon-Jang/TRIAGE.

English

Clinical early warning systems built on electronic health records, in which clinical observations are recorded as irregularly sampled medical time series (ISMTS), must deliver both calibrated risk scores for patient triage and interpretable rationales that clinicians can verify. Large Language Models (LLMs) have been explored for this task, yet they collapse graded clinical risk into overconfident binary predictions. This risk polarization undermines both calibration and cross-patient comparability. To address this, we propose TRIAGE, a framework that trains an LLM to generate dialectical reasoning over competing clinical outcomes by eliciting outcome-specific rationales. This dialectical formulation mitigates risk polarization, enabling a single LLM to yield continuous risk scores grounded in explicit clinical reasoning. Evaluated on three ISMTS benchmarks, TRIAGE achieves an average AUPRC improvement of 3.3% and reduces calibration error by 81% compared to the competitive baselines. An LLM-as-a-judge assessment further shows that our rationales surpass post-hoc explanations from the baseline by 20% in clinical reasoning quality. The source code is available at https://github.com/HyeongWon-Jang/TRIAGE .