TRIAGE: Raciocínio Dialético para Predição de Risco Explicável em Séries Temporais Médicas Amostradas Irregularmente com LLMs

Resumo

Sistemas de alerta precoce clínicos baseados em registros eletrônicos de saúde, nos quais as observações clínicas são registradas como séries temporais médicas com amostragem irregular (ISMTS), devem fornecer tanto escores de risco calibrados para triagem de pacientes quanto justificativas interpretáveis que os médicos possam verificar. Modelos de Linguagem de Grande Escala (LLMs) têm sido explorados para essa tarefa, mas eles colapsam o risco clínico graduado em predições binárias excessivamente confiantes. Essa polarização de risco prejudica tanto a calibração quanto a comparabilidade entre pacientes. Para abordar isso, propomos o TRIAGE, uma estrutura que treina um LLM para gerar raciocínio dialético sobre desfechos clínicos concorrentes, elicitando justificativas específicas para cada desfecho. Essa formulação dialética mitiga a polarização de risco, permitindo que um único LLM produza escores de risco contínuos fundamentados em raciocínio clínico explícito. Avaliado em três benchmarks de ISMTS, o TRIAGE alcança uma melhoria média de 3,3% no AUPRC e reduz o erro de calibração em 81% em comparação com as linhas de base competitivas. Uma avaliação usando LLM como juiz mostra ainda que nossas justificativas superam as explicações post-hoc da linha de base em 20% na qualidade do raciocínio clínico. O código-fonte está disponível em https://github.com/HyeongWon-Jang/TRIAGE .

English

Clinical early warning systems built on electronic health records, in which clinical observations are recorded as irregularly sampled medical time series (ISMTS), must deliver both calibrated risk scores for patient triage and interpretable rationales that clinicians can verify. Large Language Models (LLMs) have been explored for this task, yet they collapse graded clinical risk into overconfident binary predictions. This risk polarization undermines both calibration and cross-patient comparability. To address this, we propose TRIAGE, a framework that trains an LLM to generate dialectical reasoning over competing clinical outcomes by eliciting outcome-specific rationales. This dialectical formulation mitigates risk polarization, enabling a single LLM to yield continuous risk scores grounded in explicit clinical reasoning. Evaluated on three ISMTS benchmarks, TRIAGE achieves an average AUPRC improvement of 3.3% and reduces calibration error by 81% compared to the competitive baselines. An LLM-as-a-judge assessment further shows that our rationales surpass post-hoc explanations from the baseline by 20% in clinical reasoning quality. The source code is available at https://github.com/HyeongWon-Jang/TRIAGE .