Timer-S1 : Un modèle de fondation de séries temporelles à l'échelle du milliard avec mise à l'échelle sérielle

Résumé

Nous présentons Timer-S1, un modèle de fondation robuste de type « mixture-of-experts » (MoE) pour séries temporelles, totalisant 8,3 milliards de paramètres, avec 0,75 milliard de paramètres activés par token et une longueur de contexte de 11,5 k. Pour surmonter le goulot d'étranglement de l'extensibilité dans les modèles de fondation pré-entraînés existants pour séries temporelles, nous réalisons une mise à l'échelle en série selon trois dimensions : l'architecture du modèle, le jeu de données et le pipeline d'entraînement. Timer-S1 intègre des blocs TimeMoE épars et des blocs TimeSTP génériques pour la prédiction séquentielle de tokens (STP), un objectif d'entraînement générique qui respecte la nature séquentielle de la prévision. Le paradigme proposé introduit des calculs séquentiels pour améliorer les prédictions à long terme tout en évitant l'inférence coûteuse de type « rolling » et l'accumulation prononcée d'erreurs dans la prédiction standard du token suivant. Dans la quête d'un jeu de données d'entraînement de haute qualité et non biaisé, nous constituons TimeBench, un corpus contenant mille milliards de points temporels, et appliquons une augmentation méticuleuse des données pour atténuer le biais prédictif. Nous introduisons en outre une étape de post-entraînement, comprenant un pré-entraînement continu et une extension à long contexte, pour améliorer les performances à court terme et en contexte étendu. Évalué sur le leaderboard GIFT-Eval à grande échelle, Timer-S1 atteint des performances de prévision à la pointe de l'état de l'art, obtenant les meilleurs scores MASE et CRPS en tant que modèle pré-entraîné. Timer-S1 sera publié pour favoriser les recherches ultérieures.

English

We introduce Timer-S1, a strong Mixture-of-Experts (MoE) time series foundation model with 8.3B total parameters, 0.75B activated parameters for each token, and a context length of 11.5K. To overcome the scalability bottleneck in existing pre-trained time series foundation models, we perform Serial Scaling in three dimensions: model architecture, dataset, and training pipeline. Timer-S1 integrates sparse TimeMoE blocks and generic TimeSTP blocks for Serial-Token Prediction (STP), a generic training objective that adheres to the serial nature of forecasting. The proposed paradigm introduces serial computations to improve long-term predictions while avoiding costly rolling-style inference and pronounced error accumulation in the standard next-token prediction. Pursuing a high-quality and unbiased training dataset, we curate TimeBench, a corpus with one trillion time points, and apply meticulous data augmentation to mitigate predictive bias. We further pioneer a post-training stage, including continued pre-training and long-context extension, to enhance short-term and long-context performance. Evaluated on the large-scale GIFT-Eval leaderboard, Timer-S1 achieves state-of-the-art forecasting performance, attaining the best MASE and CRPS scores as a pre-trained model. Timer-S1 will be released to facilitate further research.

Timer-S1 : Un modèle de fondation de séries temporelles à l'échelle du milliard avec mise à l'échelle sérielle

Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

Résumé

Support