Treinamento de Modelos de Linguagem de Grande Porte para Previsão de Eventos Clínicos
Training Large Language Models to Predict Clinical Events
May 12, 2026
Autores: Benjamin Turtel, Paul Wilczewski, Kris Skotheim
cs.AI
Resumo
Notas clínicas longitudinais contêm evidências ricas de como os pacientes evoluem ao longo do tempo, mas converter esse sinal em supervisão de treinamento para predição clínica continua desafiador. Estendemos o Foresight Learning à predição clínica, convertendo notas do MIMIC-III ordenadas temporalmente em exemplos compostos por contexto passado do paciente, uma pergunta em linguagem natural sobre um possível evento futuro e um rótulo extraído da documentação posterior. Esse processo gera 6.900 exemplos de predição a partir de 702 internações, abrangendo medicamentos, procedimentos, suporte a órgãos, microbiologia e mortalidade. Um pequeno adaptador LoRA treinado nesses exemplos melhora o modelo base com prompt, reduzindo o erro de calibração esperado de 0,1269 para 0,0398 e o escore de Brier de 0,199 para 0,145, enquanto supera ligeiramente as estimativas pontuais do GPT-5 em questões retidas. A abordagem permite supervisão de predição clínica reutilizável a partir de notas longitudinais, sem necessidade de características estruturadas projetadas manualmente ou classificadores específicos de desfecho.
English
Longitudinal clinical notes contain rich evidence of how patients evolve over time, but converting this signal into training supervision for clinical prediction remains challenging. We extend Foresight Learning to clinical prediction by converting time-ordered MIMIC-III notes into examples consisting of past patient context, a natural-language question about a possible future event, and a label resolved from later documentation. This process yields 6,900 prediction examples from 702 admissions across medications, procedures, organ support, microbiology, and mortality. A small LoRA adapter trained on these examples improves over the prompted base model, reducing expected calibration error from 0.1269 to 0.0398 and Brier score from 0.199 to 0.145, while slightly outperforming GPT-5 point estimates on held-out questions. The approach enables reusable clinical prediction supervision from longitudinal notes without hand-engineered structured features or endpoint-specific classifiers.