SAGA: Una Arquitectura Generativa Adaptativa de Secuencias para Pronóstico Probabilístico Multi-Horizonte con Predicción Conformal Temporal Adaptativa
SAGA: A Sequence-Adaptive Generative Architecture for Multi-Horizon Probabilistic Forecasting with Adaptive Temporal Conformal Prediction
May 18, 2026
Autores: Gustav Olaf Yunus Laitinen-Fredriksson Lundström-Imanov, Hafize Gonca Cömert
cs.AI
Resumen
Los modelos de microsimulación utilizados por los ministerios de Hacienda y los bancos centrales dependen de procesos paramétricos para los ingresos laborales a lo largo de la vida que capturan únicamente los primeros y segundos momentos de la distribución condicional y omiten la estructura no lineal de largo alcance. Proponemos SAGA, un transformador solo con decodificador para secuencias tabulares irregulares de panel, combinado con un envoltorio de calibración conforme dividida que proporciona intervalos de predicción a nivel individual con garantías de cobertura marginal en muestras finitas. Entrenado en el registro longitudinal sueco LISA entre 1990 y 2022, que comprende 2.143.817 individuos y 61.284.903 años-persona, el modelo pronostica los ingresos laborales anuales en horizontes de uno a treinta años y los agrega mediante Montecarlo en distribuciones de ingresos vitalicios descontados al presente. Frente al proceso paramétrico canónico de Guvenen, Karahan, Ozkan y Song, así como frente a líneas base tabulares y recurrentes, SAGA reduce la puntuación de probabilidad clasificada continua en un 31,9 % en el horizonte de diez años y el error absoluto medio en un 37,7 % en el horizonte de veinte años. Los intervalos conformes alcanzan una cobertura nominal marginal dentro de 0,4 puntos porcentuales y, en el peor subgrupo demográfico, dentro de 2,4 puntos porcentuales. El coeficiente de Gini reconstruido de ingresos vitalicios es 0,327 frente al valor real parcialmente observado de 0,341 y la estimación de GKOS de 0,378. Los pesos del modelo, las tablas de calibración y un conjunto de datos sintéticos equivalentes se publican para su replicación fuera del entorno protegido SCB MONA.
English
Microsimulation models used by ministries of finance and central banks rely on parametric processes for lifetime earnings that capture only first and second moments of the conditional distribution and miss long-range nonlinear structure. We propose SAGA, a decoder-only transformer for irregular tabular panel sequences, paired with a split conformal calibration wrapper that delivers individual-level prediction intervals with finite-sample marginal coverage guarantees. Trained on the longitudinal Swedish LISA register over 1990 to 2022, comprising 2,143,817 individuals and 61,284,903 person-years, the model forecasts annual labor earnings at horizons of one to thirty years and aggregates them by Monte Carlo into present-discounted lifetime earnings distributions. Against the canonical Guvenen, Karahan, Ozkan, and Song parametric process and tabular and recurrent baselines, SAGA reduces continuous ranked probability score by 31.9 percent at the ten-year horizon and mean absolute error by 37.7 percent at the twenty-year horizon. Conformal intervals achieve nominal coverage to within 0.4 percentage points marginally and within 2.4 percentage points on the worst-case demographic subgroup. The reconstructed lifetime earnings Gini coefficient is 0.327 against the partially observed truth of 0.341 and the GKOS estimate of 0.378. Model weights, calibration tables, and a synthetic equivalent dataset are released for replication outside the protected SCB MONA environment.