Entrenamiento de Modelos de Lenguaje Grandes para Predecir Eventos Clínicos

Resumen

Las notas clínicas longitudinales contienen evidencia rica de cómo evolucionan los pacientes a lo largo del tiempo, pero convertir esta señal en supervisión de entrenamiento para la predicción clínica sigue siendo un desafío. Extendemos el aprendizaje de Foresight (Foresight Learning) a la predicción clínica transformando notas de MIMIC-III ordenadas cronológicamente en ejemplos que consisten en contexto pasado del paciente, una pregunta en lenguaje natural sobre un posible evento futuro y una etiqueta obtenida de documentación posterior. Este proceso produce 6,900 ejemplos de predicción a partir de 702 admisiones, abarcando medicamentos, procedimientos, soporte de órganos, microbiología y mortalidad. Un pequeño adaptador LoRA entrenado con estos ejemplos mejora respecto al modelo base con indicaciones, reduciendo el error de calibración esperado de 0,1269 a 0,0398 y el puntaje Brier de 0,199 a 0,145, al mismo tiempo que supera ligeramente las estimaciones puntuales de GPT-5 en preguntas reservadas. El enfoque permite una supervisión reutilizable de predicción clínica a partir de notas longitudinales, sin necesidad de características estructuradas diseñadas manualmente ni clasificadores específicos de punto final.

English

Longitudinal clinical notes contain rich evidence of how patients evolve over time, but converting this signal into training supervision for clinical prediction remains challenging. We extend Foresight Learning to clinical prediction by converting time-ordered MIMIC-III notes into examples consisting of past patient context, a natural-language question about a possible future event, and a label resolved from later documentation. This process yields 6,900 prediction examples from 702 admissions across medications, procedures, organ support, microbiology, and mortality. A small LoRA adapter trained on these examples improves over the prompted base model, reducing expected calibration error from 0.1269 to 0.0398 and Brier score from 0.199 to 0.145, while slightly outperforming GPT-5 point estimates on held-out questions. The approach enables reusable clinical prediction supervision from longitudinal notes without hand-engineered structured features or endpoint-specific classifiers.