Former de grands modèles de langage à prédire des événements cliniques

Résumé

Les notes cliniques longitudinales contiennent des preuves riches de l'évolution des patients dans le temps, mais convertir ce signal en supervision d'entraînement pour la prédiction clinique reste un défi. Nous étendons l'Apprentissage par Anticipation (Foresight Learning) à la prédiction clinique en convertissant les notes MIMIC-III ordonnées chronologiquement en exemples composés d'un contexte passé du patient, d'une question en langage naturel concernant un événement futur possible, et d'une étiquette extraite de la documentation ultérieure. Ce processus génère 6 900 exemples de prédiction à partir de 702 admissions, couvrant les médicaments, les procédures, le support d'organes, la microbiologie et la mortalité. Un petit adaptateur LoRA entraîné sur ces exemples améliore le modèle de base sollicité, réduisant l'erreur de calibration attendue de 0,1269 à 0,0398 et le score de Brier de 0,199 à 0,145, tout en surpassant légèrement les estimations ponctuelles de GPT-5 sur des questions exclues de l'entraînement. Cette approche permet de réutiliser la supervision pour la prédiction clinique à partir de notes longitudinales, sans nécessiter de caractéristiques structurées conçues manuellement ni de classificateurs spécifiques aux critères de jugement.

English

Longitudinal clinical notes contain rich evidence of how patients evolve over time, but converting this signal into training supervision for clinical prediction remains challenging. We extend Foresight Learning to clinical prediction by converting time-ordered MIMIC-III notes into examples consisting of past patient context, a natural-language question about a possible future event, and a label resolved from later documentation. This process yields 6,900 prediction examples from 702 admissions across medications, procedures, organ support, microbiology, and mortality. A small LoRA adapter trained on these examples improves over the prompted base model, reducing expected calibration error from 0.1269 to 0.0398 and Brier score from 0.199 to 0.145, while slightly outperforming GPT-5 point estimates on held-out questions. The approach enables reusable clinical prediction supervision from longitudinal notes without hand-engineered structured features or endpoint-specific classifiers.