Timer-S1: Un Modello Fondamentale per Serie Temporali su Scala di Miliardi con Scalabilità Seriale
Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling
March 5, 2026
Autori: Yong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long
cs.AI
Abstract
Presentiamo Timer-S1, un solido modello base per serie temporali di tipo Mixture-of-Experts (MoE) con 8,3 miliardi di parametri totali, 0,75 miliardi di parametri attivati per ogni token e una lunghezza contestuale di 11,5K. Per superare il collo di bottiglia della scalabilità nei modelli base per serie temporali pre-addestrati esistenti, applichiamo lo "Serial Scaling" lungo tre dimensioni: architettura del modello, dataset e pipeline di addestramento. Timer-S1 integra blocchi TimeMoE sparsi e blocchi TimeSTP generici per la Serial-Token Prediction (STP), un obiettivo di addestramento generico che rispetta la natura sequenziale della previsione. Il paradigma proposto introduce calcoli seriali per migliorare le previsioni a lungo termine, evitando al contempo l'onerosa inferenza di tipo rolling e la marcata accumulazione di errori tipica della predizione standard del token successivo. Alla ricerca di un dataset di addestramento di alta qualità e non distorto, abbiamo curato TimeBench, un corpus con mille miliardi di punti temporali, applicando una meticolosa augmentazione dei dati per mitigare il bias predittivo. Abbiamo inoltre introdotto una fase di post-addestramento, che include pre-addestramento continuato ed estensione del contesto lungo, per potenziare le prestazioni a breve termine e con contesti estesi. Valutato sull'ampia classifica GIFT-Eval, Timer-S1 raggiunge prestazioni previsive all'avanguardia, ottenendo i migliori punteggi MASE e CRPS come modello pre-addestrato. Timer-S1 sarà rilasciato per favorire ulteriori ricerche.
English
We introduce Timer-S1, a strong Mixture-of-Experts (MoE) time series foundation model with 8.3B total parameters, 0.75B activated parameters for each token, and a context length of 11.5K. To overcome the scalability bottleneck in existing pre-trained time series foundation models, we perform Serial Scaling in three dimensions: model architecture, dataset, and training pipeline. Timer-S1 integrates sparse TimeMoE blocks and generic TimeSTP blocks for Serial-Token Prediction (STP), a generic training objective that adheres to the serial nature of forecasting. The proposed paradigm introduces serial computations to improve long-term predictions while avoiding costly rolling-style inference and pronounced error accumulation in the standard next-token prediction. Pursuing a high-quality and unbiased training dataset, we curate TimeBench, a corpus with one trillion time points, and apply meticulous data augmentation to mitigate predictive bias. We further pioneer a post-training stage, including continued pre-training and long-context extension, to enhance short-term and long-context performance. Evaluated on the large-scale GIFT-Eval leaderboard, Timer-S1 achieves state-of-the-art forecasting performance, attaining the best MASE and CRPS scores as a pre-trained model. Timer-S1 will be released to facilitate further research.