Time-MoE : Modèles de base pour séries temporelles à l'échelle du milliard avec Mélange d'Experts
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
September 24, 2024
Auteurs: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
cs.AI
Résumé
L'apprentissage profond pour la prévision de séries temporelles a connu des avancées significatives au cours des dernières décennies. Cependant, malgré le succès de l'apprentissage préalable à grande échelle dans les domaines du langage et de la vision, les modèles pré-entraînés pour les séries temporelles restent limités en termes d'échelle et fonctionnent à un coût élevé, entravant le développement de modèles de prévision plus grands et plus performants dans des applications du monde réel. En réponse, nous présentons Time-MoE, une architecture évolutive et unifiée conçue pour pré-entraîner des modèles de base de prévision plus grands et plus performants tout en réduisant les coûts d'inférence. En exploitant une conception de mélange d'experts épars (MoE), Time-MoE améliore l'efficacité computationnelle en activant uniquement un sous-ensemble de réseaux pour chaque prédiction, réduisant la charge computationnelle tout en maintenant une capacité de modèle élevée. Cela permet à Time-MoE de s'étendre efficacement sans augmentation correspondante des coûts d'inférence. Time-MoE comprend une famille de modèles transformateurs à décodeur uniquement qui fonctionnent de manière autorégressive et prennent en charge des horizons de prévision flexibles avec des longueurs de contexte d'entrée variables. Nous avons pré-entraîné ces modèles sur nos nouvelles données à grande échelle Time-300B, qui couvrent 9 domaines et englobent plus de 300 milliards de points temporels. Pour la première fois, nous avons augmenté la taille d'un modèle de base de séries temporelles à 2,4 milliards de paramètres, obtenant une précision de prévision nettement améliorée. Nos résultats valident l'applicabilité des lois d'échelle pour l'entraînement de jetons et la taille du modèle dans le contexte de la prévision de séries temporelles. Comparés aux modèles denses avec le même nombre de paramètres activés ou des budgets de calcul équivalents, nos modèles les surpassent systématiquement de loin. Ces avancées placent Time-MoE comme une solution de pointe pour relever les défis de prévision de séries temporelles du monde réel avec une capacité, une efficacité et une flexibilité supérieures.
English
Deep learning for time series forecasting has seen significant advancements
over the past decades. However, despite the success of large-scale pre-training
in language and vision domains, pre-trained time series models remain limited
in scale and operate at a high cost, hindering the development of larger
capable forecasting models in real-world applications. In response, we
introduce Time-MoE, a scalable and unified architecture designed to pre-train
larger, more capable forecasting foundation models while reducing inference
costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE
enhances computational efficiency by activating only a subset of networks for
each prediction, reducing computational load while maintaining high model
capacity. This allows Time-MoE to scale effectively without a corresponding
increase in inference costs. Time-MoE comprises a family of decoder-only
transformer models that operate in an auto-regressive manner and support
flexible forecasting horizons with varying input context lengths. We
pre-trained these models on our newly introduced large-scale data Time-300B,
which spans over 9 domains and encompassing over 300 billion time points. For
the first time, we scaled a time series foundation model up to 2.4 billion
parameters, achieving significantly improved forecasting precision. Our results
validate the applicability of scaling laws for training tokens and model size
in the context of time series forecasting. Compared to dense models with the
same number of activated parameters or equivalent computation budgets, our
models consistently outperform them by large margin. These advancements
position Time-MoE as a state-of-the-art solution for tackling real-world time
series forecasting challenges with superior capability, efficiency, and
flexibility.Summary
AI-Generated Summary