大規模言語モデルによる臨床イベント予測の訓練
Training Large Language Models to Predict Clinical Events
May 12, 2026
著者: Benjamin Turtel, Paul Wilczewski, Kris Skotheim
cs.AI
要旨
時系列の臨床記録には、患者の経時的な変化を示す豊富なエビデンスが含まれているが、このシグナルを臨床予測のための学習用教師信号に変換することは依然として課題である。我々は、時間順に整理されたMIMIC-IIIの記録を、過去の患者コンテキストと将来の可能性のあるイベントに関する自然言語の質問、および後続の文書から解決されたラベルからなる例に変換することで、Foresight Learningを臨床予測に拡張する。このプロセスにより、投薬、処置、臓器サポート、微生物学、死亡率にわたる702件の入院から6,900件の予測例が得られる。これらの例で訓練された小さなLoRAアダプタは、プロンプトを用いたベースモデルよりも改善され、期待キャリブレーション誤差を0.1269から0.0398に、ブライアスコアを0.199から0.145に低減し、保留質問におけるGPT-5の点推定値をわずかに上回る。このアプローチにより、手作業で設計された構造化特徴量やエンドポイント固有の分類器を必要とせずに、時系列記録から再利用可能な臨床予測の教師信号を得ることが可能になる。
English
Longitudinal clinical notes contain rich evidence of how patients evolve over time, but converting this signal into training supervision for clinical prediction remains challenging. We extend Foresight Learning to clinical prediction by converting time-ordered MIMIC-III notes into examples consisting of past patient context, a natural-language question about a possible future event, and a label resolved from later documentation. This process yields 6,900 prediction examples from 702 admissions across medications, procedures, organ support, microbiology, and mortality. A small LoRA adapter trained on these examples improves over the prompted base model, reducing expected calibration error from 0.1269 to 0.0398 and Brier score from 0.199 to 0.145, while slightly outperforming GPT-5 point estimates on held-out questions. The approach enables reusable clinical prediction supervision from longitudinal notes without hand-engineered structured features or endpoint-specific classifiers.