ChatPaper.aiChatPaper

SAGA: 다중 시간대 확률적 예측을 위한 시퀀스 적응형 생성 아키텍처 - 적응형 시간적 순응 예측 적용

SAGA: A Sequence-Adaptive Generative Architecture for Multi-Horizon Probabilistic Forecasting with Adaptive Temporal Conformal Prediction

May 18, 2026
저자: Gustav Olaf Yunus Laitinen-Fredriksson Lundström-Imanov, Hafize Gonca Cömert
cs.AI

초록

재무부와 중앙은행이 사용하는 미시시뮬레이션 모델은 기대소득의 모수적 과정에 의존하며, 이는 조건부 분포의 1차 및 2차 모멘트만을 포착하고 장기적 비선형 구조를 놓친다. 본 연구에서는 불규칙한 표 형태의 패널 시퀀스를 위한 디코더 전용 트랜스포머인 SAGA를 제안하며, 이는 유한 표본 한계 커버리지를 보장하는 개인 수준 예측 구간을 제공하는 분할 적합 보정 래퍼와 결합된다. 1990년부터 2022년까지의 스웨덴 종단적 LISA 등록 데이터(2,143,817명의 개인과 61,284,903 인-년 포함)로 훈련된 이 모델은 1년에서 30년의 기간에 걸친 연간 노동 소득을 예측하고, 몬테카를로 방법을 통해 이를 현재 할인된 생애소득 분포로 집계한다. 기준 모수적 과정인 Guvenen, Karahan, Ozkan, Song 모형 및 표 형태 및 순환 기준 모델과 비교하여, SAGA는 10년 기간에서 연속 순위 확률 점수를 31.9% 감소시키고, 20년 기간에서 평균 절대 오차를 37.7% 감소시킨다. 적합 구간은 한계적으로 0.4% 포인트 이내, 최악의 인구통계학적 하위 그룹에서 2.4% 포인트 이내로 명목 커버리지를 달성한다. 재구성된 생애소득 지니계수는 0.327로, 부분 관측된 실제값 0.341 및 GKOS 추정치 0.378과 대비된다. 모델 가중치, 보정 테이블 및 합성 동등 데이터 세트는 보호된 SCB MONA 환경 외부에서의 재현을 위해 공개된다.
English
Microsimulation models used by ministries of finance and central banks rely on parametric processes for lifetime earnings that capture only first and second moments of the conditional distribution and miss long-range nonlinear structure. We propose SAGA, a decoder-only transformer for irregular tabular panel sequences, paired with a split conformal calibration wrapper that delivers individual-level prediction intervals with finite-sample marginal coverage guarantees. Trained on the longitudinal Swedish LISA register over 1990 to 2022, comprising 2,143,817 individuals and 61,284,903 person-years, the model forecasts annual labor earnings at horizons of one to thirty years and aggregates them by Monte Carlo into present-discounted lifetime earnings distributions. Against the canonical Guvenen, Karahan, Ozkan, and Song parametric process and tabular and recurrent baselines, SAGA reduces continuous ranked probability score by 31.9 percent at the ten-year horizon and mean absolute error by 37.7 percent at the twenty-year horizon. Conformal intervals achieve nominal coverage to within 0.4 percentage points marginally and within 2.4 percentage points on the worst-case demographic subgroup. The reconstructed lifetime earnings Gini coefficient is 0.327 against the partially observed truth of 0.341 and the GKOS estimate of 0.378. Model weights, calibration tables, and a synthetic equivalent dataset are released for replication outside the protected SCB MONA environment.