TRIAGE: Razonamiento dialéctico para la predicción explicable de riesgo en series temporales médicas muestreadas irregularmente con LLMs

Resumen

Los sistemas de alerta temprana clínica basados en historias clínicas electrónicas, en los que las observaciones clínicas se registran como series temporales médicas muestreadas irregularmente (ISMTS), deben proporcionar tanto puntuaciones de riesgo calibradas para la clasificación de pacientes como justificaciones interpretables que los médicos puedan verificar. Se han explorado modelos de lenguaje de gran escala (LLM) para esta tarea, pero estos colapsan el riesgo clínico graduado en predicciones binarias demasiado confiadas. Esta polarización del riesgo socava tanto la calibración como la comparabilidad entre pacientes. Para abordar esto, proponemos TRIAGE, un marco que entrena un LLM para generar razonamiento dialéctico sobre resultados clínicos en competencia, mediante la obtención de justificaciones específicas para cada resultado. Esta formulación dialéctica mitiga la polarización del riesgo, permitiendo que un único LLM produzca puntuaciones de riesgo continuas fundamentadas en un razonamiento clínico explícito. Evaluado en tres puntos de referencia de ISMTS, TRIAGE logra una mejora promedio del AUPRC del 3.3% y reduce el error de calibración en un 81% en comparación con las líneas base competitivas. Una evaluación de LLM como juez muestra además que nuestras justificaciones superan en un 20% a las explicaciones post-hoc de la línea base en cuanto a calidad del razonamiento clínico. El código fuente está disponible en https://github.com/HyeongWon-Jang/TRIAGE .

English

Clinical early warning systems built on electronic health records, in which clinical observations are recorded as irregularly sampled medical time series (ISMTS), must deliver both calibrated risk scores for patient triage and interpretable rationales that clinicians can verify. Large Language Models (LLMs) have been explored for this task, yet they collapse graded clinical risk into overconfident binary predictions. This risk polarization undermines both calibration and cross-patient comparability. To address this, we propose TRIAGE, a framework that trains an LLM to generate dialectical reasoning over competing clinical outcomes by eliciting outcome-specific rationales. This dialectical formulation mitigates risk polarization, enabling a single LLM to yield continuous risk scores grounded in explicit clinical reasoning. Evaluated on three ISMTS benchmarks, TRIAGE achieves an average AUPRC improvement of 3.3% and reduces calibration error by 81% compared to the competitive baselines. An LLM-as-a-judge assessment further shows that our rationales surpass post-hoc explanations from the baseline by 20% in clinical reasoning quality. The source code is available at https://github.com/HyeongWon-Jang/TRIAGE .