Training großer Sprachmodelle zur Vorhersage klinischer Ereignisse
Training Large Language Models to Predict Clinical Events
May 12, 2026
Autoren: Benjamin Turtel, Paul Wilczewski, Kris Skotheim
cs.AI
Zusammenfassung
Längsschnittliche klinische Notizen enthalten reichhaltige Belege dafür, wie sich Patienten im Laufe der Zeit entwickeln, aber die Umwandlung dieses Signals in Trainingssupervision für klinische Vorhersagen bleibt herausfordernd. Wir erweitern Foresight Learning auf klinische Vorhersagen, indem wir zeitlich geordnete MIMIC-III-Notizen in Beispiele umwandeln, die aus dem bisherigen Patientenkontext, einer in natürlicher Sprache formulierten Frage zu einem möglichen zukünftigen Ereignis und einer aus späteren Dokumentationen abgeleiteten Kennzeichnung bestehen. Dieser Prozess ergibt 6.900 Vorhersagebeispiele aus 702 Krankenhausaufenthalten, die Medikamente, Verfahren, Organunterstützung, Mikrobiologie und Mortalität abdecken. Ein kleiner LoRA-Adapter, der auf diesen Beispielen trainiert wird, verbessert das zugrunde liegende Modell und reduziert den erwarteten Kalibrierungsfehler von 0,1269 auf 0,0398 sowie den Brier-Score von 0,199 auf 0,145, während er bei zurückgehaltenen Fragen die Punktschätzungen von GPT-5 leicht übertrifft. Der Ansatz ermöglicht wiederverwendbare klinische Vorhersagesupervision aus Längsschnittnotizen ohne manuell entwickelte strukturierte Merkmale oder endpointspezifische Klassifikatoren.
English
Longitudinal clinical notes contain rich evidence of how patients evolve over time, but converting this signal into training supervision for clinical prediction remains challenging. We extend Foresight Learning to clinical prediction by converting time-ordered MIMIC-III notes into examples consisting of past patient context, a natural-language question about a possible future event, and a label resolved from later documentation. This process yields 6,900 prediction examples from 702 admissions across medications, procedures, organ support, microbiology, and mortality. A small LoRA adapter trained on these examples improves over the prompted base model, reducing expected calibration error from 0.1269 to 0.0398 and Brier score from 0.199 to 0.145, while slightly outperforming GPT-5 point estimates on held-out questions. The approach enables reusable clinical prediction supervision from longitudinal notes without hand-engineered structured features or endpoint-specific classifiers.