TRIAGE: Диалектическое рассуждение для объяснимого прогнозирования рисков на неравномерно дискретизированных медицинских временных рядах с помощью больших языковых моделей

Аннотация

Клинические системы раннего предупреждения, построенные на основе электронных медицинских карт, в которых клинические наблюдения фиксируются в виде нерегулярно дискретизированных медицинских временных рядов (НДМВР), должны обеспечивать как калиброванные оценки риска для сортировки пациентов, так и интерпретируемые обоснования, которые клиницисты могут верифицировать. Большие языковые модели (БЯМ) исследовались для этой задачи, однако они сводят градуированный клинический риск к самоуверенным бинарным прогнозам. Такая поляризация риска подрывает как калибровку, так и сопоставимость между пациентами. Чтобы решить эту проблему, мы предлагаем TRIAGE — фреймворк, который обучает БЯМ генерировать диалектические рассуждения относительно конкурирующих клинических исходов путем извлечения обоснований, специфичных для каждого исхода. Такая диалектическая формулировка снижает поляризацию риска, позволяя одной БЯМ выдавать непрерывные оценки риска, основанные на явном клиническом рассуждении. При оценке на трех эталонных наборах данных НДМВР TRIAGE достигает среднего улучшения AUPRC на 3,3% и снижает ошибку калибровки на 81% по сравнению с конкурентоспособными базовыми моделями. Оценка с использованием БЯМ в роли судьи дополнительно показывает, что наши обоснования превосходят постфактум объяснения от базовой модели на 20% по качеству клинического рассуждения. Исходный код доступен по адресу https://github.com/HyeongWon-Jang/TRIAGE .

English

Clinical early warning systems built on electronic health records, in which clinical observations are recorded as irregularly sampled medical time series (ISMTS), must deliver both calibrated risk scores for patient triage and interpretable rationales that clinicians can verify. Large Language Models (LLMs) have been explored for this task, yet they collapse graded clinical risk into overconfident binary predictions. This risk polarization undermines both calibration and cross-patient comparability. To address this, we propose TRIAGE, a framework that trains an LLM to generate dialectical reasoning over competing clinical outcomes by eliciting outcome-specific rationales. This dialectical formulation mitigates risk polarization, enabling a single LLM to yield continuous risk scores grounded in explicit clinical reasoning. Evaluated on three ISMTS benchmarks, TRIAGE achieves an average AUPRC improvement of 3.3% and reduces calibration error by 81% compared to the competitive baselines. An LLM-as-a-judge assessment further shows that our rationales surpass post-hoc explanations from the baseline by 20% in clinical reasoning quality. The source code is available at https://github.com/HyeongWon-Jang/TRIAGE .