ChatPaper.aiChatPaper

Time-MoE: Modelos Fundamentales de Series Temporales a Escala de Mil Millones con Mezcla de Expertos

Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts

September 24, 2024
Autores: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
cs.AI

Resumen

El aprendizaje profundo para la predicción de series temporales ha experimentado avances significativos en las últimas décadas. Sin embargo, a pesar del éxito del preentrenamiento a gran escala en los dominios del lenguaje y la visión, los modelos preentrenados de series temporales siguen siendo limitados en escala y operan a un alto costo, lo que dificulta el desarrollo de modelos de predicción más grandes y capaces en aplicaciones del mundo real. En respuesta, presentamos Time-MoE, una arquitectura escalable y unificada diseñada para preentrenar modelos de base de predicción más grandes y capaces, al tiempo que reduce los costos de inferencia. Al aprovechar un diseño disperso de mezcla de expertos (MoE), Time-MoE mejora la eficiencia computacional activando solo un subconjunto de redes para cada predicción, reduciendo la carga computacional manteniendo una alta capacidad del modelo. Esto permite que Time-MoE escale de manera efectiva sin un aumento correspondiente en los costos de inferencia. Time-MoE consta de una familia de modelos transformadores solo decodificadores que operan de manera auto-regresiva y admiten horizontes de predicción flexibles con diferentes longitudes de contexto de entrada. Preentrenamos estos modelos en nuestros datos a gran escala recién introducidos, Time-300B, que abarca más de 9 dominios y comprende más de 300 mil millones de puntos temporales. Por primera vez, escalamos un modelo de base de series temporales a 2.4 mil millones de parámetros, logrando una precisión de predicción significativamente mejorada. Nuestros resultados validan la aplicabilidad de las leyes de escala para el entrenamiento de tokens y el tamaño del modelo en el contexto de la predicción de series temporales. En comparación con modelos densos con el mismo número de parámetros activados o presupuestos de cálculo equivalentes, nuestros modelos los superan consistentemente por un amplio margen. Estos avances posicionan a Time-MoE como una solución de vanguardia para abordar los desafíos de predicción de series temporales del mundo real con una capacidad, eficiencia y flexibilidad superiores.
English
Deep learning for time series forecasting has seen significant advancements over the past decades. However, despite the success of large-scale pre-training in language and vision domains, pre-trained time series models remain limited in scale and operate at a high cost, hindering the development of larger capable forecasting models in real-world applications. In response, we introduce Time-MoE, a scalable and unified architecture designed to pre-train larger, more capable forecasting foundation models while reducing inference costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE enhances computational efficiency by activating only a subset of networks for each prediction, reducing computational load while maintaining high model capacity. This allows Time-MoE to scale effectively without a corresponding increase in inference costs. Time-MoE comprises a family of decoder-only transformer models that operate in an auto-regressive manner and support flexible forecasting horizons with varying input context lengths. We pre-trained these models on our newly introduced large-scale data Time-300B, which spans over 9 domains and encompassing over 300 billion time points. For the first time, we scaled a time series foundation model up to 2.4 billion parameters, achieving significantly improved forecasting precision. Our results validate the applicability of scaling laws for training tokens and model size in the context of time series forecasting. Compared to dense models with the same number of activated parameters or equivalent computation budgets, our models consistently outperform them by large margin. These advancements position Time-MoE as a state-of-the-art solution for tackling real-world time series forecasting challenges with superior capability, efficiency, and flexibility.

Summary

AI-Generated Summary

PDF142November 16, 2024