Timer-S1: Ein Milliarden-großes Zeitreihen-Foundation-Modell mit serieller Skalierung
Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling
March 5, 2026
Autoren: Yong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long
cs.AI
Zusammenfassung
Wir stellen Timer-S1 vor, ein leistungsstarkes Mixture-of-Experts (MoE)-Zeitreihen-Foundation-Modell mit 8,3 Mrd. Gesamtparametern, 0,75 Mrd. aktivierten Parametern pro Token und einer Kontextlänge von 11.500 Token. Um den Skalierbarkeitsengpass bei bestehenden vortrainierten Zeitreihen-Foundation-Modellen zu überwinden, führen wir ein serielles Skalieren in drei Dimensionen durch: Modellarchitektur, Datensatz und Trainingspipeline. Timer-S1 integriert sparse TimeMoE-Blöcke und generische TimeSTP-Blöcke für Serial-Token Prediction (STP), ein generisches Trainingsziel, das der seriellen Natur von Prognosen folgt. Das vorgeschlagene Paradigma führt serielle Berechnungen ein, um Langzeitprognosen zu verbessern und gleichzeitig rechenintensives Rolling-Forecasting sowie ausgeprägte Fehlerakkumulation in der standardmäßigen Next-Token-Prediction zu vermeiden. Im Streben nach einem hochwertigen und verzerrungsfreien Trainingsdatensatz haben wir TimeBench kuratiert, ein Korpus mit einer Billion Zeitpunkten, und wenden sorgfältige Datenanreicherung an, um Prognoseverzerrungen zu mindern. Wir führen zudem eine Nachtrainingsphase ein, einschließlich fortgesetztem Vortraining und Long-Context-Extension, um die Kurzzeit- und Langkontextleistung zu steigern. Ausgewertet auf dem groß angelegten GIFT-Eval-Leaderboard erzielt Timer-S1 state-of-the-art Prognoseleistungen und erreicht als vortrainiertes Modell die besten MASE- und CRPS-Werte. Timer-S1 wird veröffentlicht, um die weitere Forschung zu erleichtern.
English
We introduce Timer-S1, a strong Mixture-of-Experts (MoE) time series foundation model with 8.3B total parameters, 0.75B activated parameters for each token, and a context length of 11.5K. To overcome the scalability bottleneck in existing pre-trained time series foundation models, we perform Serial Scaling in three dimensions: model architecture, dataset, and training pipeline. Timer-S1 integrates sparse TimeMoE blocks and generic TimeSTP blocks for Serial-Token Prediction (STP), a generic training objective that adheres to the serial nature of forecasting. The proposed paradigm introduces serial computations to improve long-term predictions while avoiding costly rolling-style inference and pronounced error accumulation in the standard next-token prediction. Pursuing a high-quality and unbiased training dataset, we curate TimeBench, a corpus with one trillion time points, and apply meticulous data augmentation to mitigate predictive bias. We further pioneer a post-training stage, including continued pre-training and long-context extension, to enhance short-term and long-context performance. Evaluated on the large-scale GIFT-Eval leaderboard, Timer-S1 achieves state-of-the-art forecasting performance, attaining the best MASE and CRPS scores as a pre-trained model. Timer-S1 will be released to facilitate further research.