Timer-S1: Un Modelo Fundacional de Series Temporales a Escala de Mil Millones con Escalado Serial
Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling
March 5, 2026
Autores: Yong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long
cs.AI
Resumen
Presentamos Timer-S1, un sólido modelo fundacional de series temporales de Mixture-of-Experts (MoE) con 8.300 millones de parámetros totales, 750 millones de parámetros activados por cada token y una longitud de contexto de 11.500 tokens. Para superar el cuello de botella de escalabilidad en los modelos fundacionales de series temporales preentrenados existentes, realizamos un Escalado Serial en tres dimensiones: arquitectura del modelo, conjunto de datos y proceso de entrenamiento. Timer-S1 integra bloques dispersos TimeMoE y bloques genéricos TimeSTP para la Predicción Serial de Tokens (STP, Serial-Token Prediction), un objetivo de entrenamiento genérico que se adhiere a la naturaleza serial de la previsión. El paradigma propuesto introduce cálculos seriales para mejorar las predicciones a largo plazo, evitando al mismo tiempo la costosa inferencia de tipo "rolling" y la pronunciada acumulación de errores inherente a la predicción estándar del siguiente token. En la búsqueda de un conjunto de datos de entrenamiento de alta calidad y sin sesgos, hemos creado TimeBench, un corpus con un billón de puntos temporales, y aplicamos una meticulosa aumentación de datos para mitigar el sesgo predictivo. Además, somos pioneros en introducir una etapa de post-entrenamiento, que incluye preentrenamiento continuado y extensión de contexto largo, para mejorar el rendimiento a corto plazo y con contextos extensos. Evaluado en la clasificación a gran escala GIFT-Eval, Timer-S1 logra un rendimiento de previsión de vanguardia, obteniendo las mejores puntuaciones MASE y CRPS como modelo preentrenado. Timer-S1 será publicado para facilitar futuras investigaciones.
English
We introduce Timer-S1, a strong Mixture-of-Experts (MoE) time series foundation model with 8.3B total parameters, 0.75B activated parameters for each token, and a context length of 11.5K. To overcome the scalability bottleneck in existing pre-trained time series foundation models, we perform Serial Scaling in three dimensions: model architecture, dataset, and training pipeline. Timer-S1 integrates sparse TimeMoE blocks and generic TimeSTP blocks for Serial-Token Prediction (STP), a generic training objective that adheres to the serial nature of forecasting. The proposed paradigm introduces serial computations to improve long-term predictions while avoiding costly rolling-style inference and pronounced error accumulation in the standard next-token prediction. Pursuing a high-quality and unbiased training dataset, we curate TimeBench, a corpus with one trillion time points, and apply meticulous data augmentation to mitigate predictive bias. We further pioneer a post-training stage, including continued pre-training and long-context extension, to enhance short-term and long-context performance. Evaluated on the large-scale GIFT-Eval leaderboard, Timer-S1 achieves state-of-the-art forecasting performance, attaining the best MASE and CRPS scores as a pre-trained model. Timer-S1 will be released to facilitate further research.