Timer-S1: Масштабируемая серийная фм-модель временных рядов миллиардного масштаба
Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling
March 5, 2026
Авторы: Yong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long
cs.AI
Аннотация
Мы представляем Timer-S1 — мощную фоновую модель для анализа временных рядов, основанную на архитектуре Mixture-of-Experts (MoE), с общим числом параметров 8,3 млрд, из которых 0,75 млрд параметров активируются для каждого токена, и длиной контекста 11,5 тыс. токенов. Чтобы преодолеть ограничения масштабируемости существующих предобученных моделей для временных рядов, мы применяем стратегию Serial Scaling в трёх измерениях: архитектура модели, набор данных и конвейер обучения. Timer-S1 интегрирует разреженные блоки TimeMoE и универсальные блоки TimeSTP для Serial-Token Prediction (STP) — универсальной задачи обучения, соответствующей последовательной природе прогнозирования. Предлагаемая парадигма вводит последовательные вычисления для улучшения долгосрочных прогнозов, избегая при этом ресурсоёмкого инференса в стиле rolling-прогноза и выраженного накопления ошибок, характерных для стандартного предсказания следующего токена. Стремясь к созданию качественного и несмещённого набора данных для обучения, мы подготовили TimeBench — корпус объёмом в один триллион временных точек, и применили тщательную аугментацию данных для снижения прогностического смещения. Кроме того, мы впервые внедрили этап пост-тренинга, включающий продолженное предобучение и расширение контекста, для улучшения краткосрочных и долгоконтекстных характеристик модели. По оценкам крупномасштабного бенчмарка GIFT-Eval, Timer-S1 демонстрирует наилучшие результаты прогнозирования, достигая рекордных показателей MASE и CRPS среди предобученных моделей. Timer-S1 будет опубликована для содействия дальнейшим исследованиям.
English
We introduce Timer-S1, a strong Mixture-of-Experts (MoE) time series foundation model with 8.3B total parameters, 0.75B activated parameters for each token, and a context length of 11.5K. To overcome the scalability bottleneck in existing pre-trained time series foundation models, we perform Serial Scaling in three dimensions: model architecture, dataset, and training pipeline. Timer-S1 integrates sparse TimeMoE blocks and generic TimeSTP blocks for Serial-Token Prediction (STP), a generic training objective that adheres to the serial nature of forecasting. The proposed paradigm introduces serial computations to improve long-term predictions while avoiding costly rolling-style inference and pronounced error accumulation in the standard next-token prediction. Pursuing a high-quality and unbiased training dataset, we curate TimeBench, a corpus with one trillion time points, and apply meticulous data augmentation to mitigate predictive bias. We further pioneer a post-training stage, including continued pre-training and long-context extension, to enhance short-term and long-context performance. Evaluated on the large-scale GIFT-Eval leaderboard, Timer-S1 achieves state-of-the-art forecasting performance, attaining the best MASE and CRPS scores as a pre-trained model. Timer-S1 will be released to facilitate further research.