ChatPaper.aiChatPaper

Timer-S1: 직렬 확장 기반 10억 규모 시계열 파운데이션 모델

Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

March 5, 2026
저자: Yong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long
cs.AI

초록

우리는 총 매개변수 8.3B개, 토큰당 활성화 매개변수 0.75B개, 컨텍스트 길이 11.5K를 갖춘 강력한 Mixture-of-Experts(MoE) 시계열 파운데이션 모델인 Timer-S1을 소개합니다. 기존 사전 훈련된 시계열 파운데이션 모델의 확장성 병목 현상을 극복하기 위해 모델 아키텍처, 데이터셋, 훈련 파이프라인 세 가지 차원에서 Serial Scaling을 수행합니다. Timer-S1은 희소 TimeMoE 블록과 범용 TimeSTP 블록을 통합하여 예측의 직렬적 특성을 따르는 범용 훈련 목표인 Serial-Token Prediction(STP)을 구현합니다. 제안된 패러다임은 직렬 계산을 도입하여 장기 예측 성능을 향상시키는 동시에 표준 next-token 예측에서 발생하는 고비용 rolling-style 추론과 두드러진 오류 누적을 방지합니다. 고품질이고 편향되지 않은 훈련 데이터셋을 구축하기 위해 1조 개의 시점을 포함한 코퍼스인 TimeBench를 정밀하게 구성하고 예측 편향을 완화하기 위해 세심한 데이터 증강을 적용합니다. 또한 단기 및 장문맥 성능을 향상시키기 위해 지속적 사전 훈련과 장문맥 확장을 포함한 사후 훈련 단계를 선도적으로 도입합니다. 대규모 GIFT-Eval 리더보드에서 평가된 Timer-S1은 사전 훈련된 모델로서 최고의 MASE 및 CRPS 점수를 달성하며 최첨단 예측 성능을 보여줍니다. Timer-S1은 향후 연구를 촉진하기 위해 공개될 예정입니다.
English
We introduce Timer-S1, a strong Mixture-of-Experts (MoE) time series foundation model with 8.3B total parameters, 0.75B activated parameters for each token, and a context length of 11.5K. To overcome the scalability bottleneck in existing pre-trained time series foundation models, we perform Serial Scaling in three dimensions: model architecture, dataset, and training pipeline. Timer-S1 integrates sparse TimeMoE blocks and generic TimeSTP blocks for Serial-Token Prediction (STP), a generic training objective that adheres to the serial nature of forecasting. The proposed paradigm introduces serial computations to improve long-term predictions while avoiding costly rolling-style inference and pronounced error accumulation in the standard next-token prediction. Pursuing a high-quality and unbiased training dataset, we curate TimeBench, a corpus with one trillion time points, and apply meticulous data augmentation to mitigate predictive bias. We further pioneer a post-training stage, including continued pre-training and long-context extension, to enhance short-term and long-context performance. Evaluated on the large-scale GIFT-Eval leaderboard, Timer-S1 achieves state-of-the-art forecasting performance, attaining the best MASE and CRPS scores as a pre-trained model. Timer-S1 will be released to facilitate further research.
PDF142March 9, 2026