TRIAGE: Dialektisches Denken für erklärbare Risikovorhersage auf unregelmäßig abgetasteten medizinischen Zeitreihen mit LLMs

Zusammenfassung

Auf elektronischen Gesundheitsakten basierende klinische Frühwarnsysteme, in denen klinische Beobachtungen als unregelmäßig abgetastete medizinische Zeitreihen (ISMTS) aufgezeichnet werden, müssen sowohl kalibrierte Risikowerte für die Patiententriage als auch interpretierbare Begründungen liefern, die von Klinikern überprüft werden können. Große Sprachmodelle (LLMs) wurden für diese Aufgabe untersucht, doch sie kollabieren abgestufte klinische Risiken zu übermäßig zuversichtlichen binären Vorhersagen. Diese Risikopolarisierung untergräbt sowohl die Kalibrierung als auch die patientenübergreifende Vergleichbarkeit. Um dies zu adressieren, schlagen wir TRIAGE vor, ein Framework, das ein LLM darauf trainiert, dialektisches Denken über konkurrierende klinische Ergebnisse zu generieren, indem es ausgangsspezifische Begründungen erzeugt. Diese dialektische Formulierung mildert die Risikopolarisierung und ermöglicht es einem einzigen LLM, kontinuierliche Risikowerte zu liefern, die auf explizitem klinischem Denken basieren. Bewertet auf drei ISMTS-Benchmarks erzielt TRIAGE eine durchschnittliche AUPRC-Verbesserung von 3,3% und reduziert den Kalibrierungsfehler um 81% im Vergleich zu den konkurrierenden Baselines. Eine LLM-als-Richter-Bewertung zeigt ferner, dass unsere Begründungen die Post-hoc-Erklärungen der Baseline in der Qualität des klinischen Denkens um 20% übertreffen. Der Quellcode ist verfügbar unter https://github.com/HyeongWon-Jang/TRIAGE .

English

Clinical early warning systems built on electronic health records, in which clinical observations are recorded as irregularly sampled medical time series (ISMTS), must deliver both calibrated risk scores for patient triage and interpretable rationales that clinicians can verify. Large Language Models (LLMs) have been explored for this task, yet they collapse graded clinical risk into overconfident binary predictions. This risk polarization undermines both calibration and cross-patient comparability. To address this, we propose TRIAGE, a framework that trains an LLM to generate dialectical reasoning over competing clinical outcomes by eliciting outcome-specific rationales. This dialectical formulation mitigates risk polarization, enabling a single LLM to yield continuous risk scores grounded in explicit clinical reasoning. Evaluated on three ISMTS benchmarks, TRIAGE achieves an average AUPRC improvement of 3.3% and reduces calibration error by 81% compared to the competitive baselines. An LLM-as-a-judge assessment further shows that our rationales surpass post-hoc explanations from the baseline by 20% in clinical reasoning quality. The source code is available at https://github.com/HyeongWon-Jang/TRIAGE .