Обучение больших языковых моделей для прогнозирования клинических событий

Аннотация

Продольные клинические записи содержат богатые свидетельства того, как пациенты изменяются с течением времени, однако преобразование этого сигнала в обучающую супервизию для клинического прогнозирования остаётся сложной задачей. Мы расширяем метод Foresight Learning на область клинического прогнозирования, преобразуя упорядоченные по времени записи из базы MIMIC-III в примеры, состоящие из прошлого контекста пациента, вопроса на естественном языке о возможном будущем событии и метки, полученной из более поздней документации. Этот процесс позволяет получить 6 900 примеров прогнозирования из 702 госпитализаций, охватывающих лекарственные препараты, процедуры, поддержку органов, микробиологию и летальность. Небольшой адаптер LoRA, обученный на этих примерах, улучшает результаты по сравнению с исходной моделью с подсказками: снижая ожидаемую ошибку калибровки с 0,1269 до 0,0398 и показатель Бриера с 0,199 до 0,145, а также незначительно превосходя точечные оценки GPT-5 на отложенных вопросах. Данный подход обеспечивает возможность повторного использования обучающего сигнала для клинического прогнозирования на основе продольных записей без необходимости вручную разработанных структурированных признаков или классификаторов для конкретных конечных точек.

English

Longitudinal clinical notes contain rich evidence of how patients evolve over time, but converting this signal into training supervision for clinical prediction remains challenging. We extend Foresight Learning to clinical prediction by converting time-ordered MIMIC-III notes into examples consisting of past patient context, a natural-language question about a possible future event, and a label resolved from later documentation. This process yields 6,900 prediction examples from 702 admissions across medications, procedures, organ support, microbiology, and mortality. A small LoRA adapter trained on these examples improves over the prompted base model, reducing expected calibration error from 0.1269 to 0.0398 and Brier score from 0.199 to 0.145, while slightly outperforming GPT-5 point estimates on held-out questions. The approach enables reusable clinical prediction supervision from longitudinal notes without hand-engineered structured features or endpoint-specific classifiers.