Het trainen van grote taalmodellen om klinische gebeurtenissen te voorspellen

Samenvatting

Longitudinale klinische aantekeningen bevatten rijke aanwijzingen over hoe patiënten in de loop van de tijd evolueren, maar het omzetten van dit signaal in trainingssupervisie voor klinische voorspelling blijft een uitdaging. We breiden Foresight Learning uit naar klinische voorspelling door chronologisch geordende MIMIC-III-aantekeningen om te zetten in voorbeelden die bestaan uit historische patiëntcontext, een natuurlijke-taalvraag over een mogelijke toekomstige gebeurtenis en een label dat uit latere documentatie wordt afgeleid. Dit proces levert 6.900 voorspellingsvoorbeelden op uit 702 opnames, verspreid over medicijnen, procedures, orgaanondersteuning, microbiologie en mortaliteit. Een kleine LoRA-adapter die op deze voorbeelden is getraind, presteert beter dan het gepromptte basismodel, waarbij de verwachte kalibratiefout daalt van 0,1269 naar 0,0398 en de Brier-score van 0,199 naar 0,145, terwijl het ook iets beter presteert dan de puntschattingen van GPT-5 op apart gehouden vragen. De aanpak maakt herbruikbare klinische voorspellingssupervisie mogelijk op basis van longitudinale aantekeningen, zonder handmatig ontworpen gestructureerde kenmerken of eindpunt-specifieke classificatoren.

English

Longitudinal clinical notes contain rich evidence of how patients evolve over time, but converting this signal into training supervision for clinical prediction remains challenging. We extend Foresight Learning to clinical prediction by converting time-ordered MIMIC-III notes into examples consisting of past patient context, a natural-language question about a possible future event, and a label resolved from later documentation. This process yields 6,900 prediction examples from 702 admissions across medications, procedures, organ support, microbiology, and mortality. A small LoRA adapter trained on these examples improves over the prompted base model, reducing expected calibration error from 0.1269 to 0.0398 and Brier score from 0.199 to 0.145, while slightly outperforming GPT-5 point estimates on held-out questions. The approach enables reusable clinical prediction supervision from longitudinal notes without hand-engineered structured features or endpoint-specific classifiers.