Time-MoE: Modelli Fondamentali di Serie Temporali su Scala di Miliardi con Mistura di Esperti
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
September 24, 2024
Autori: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
cs.AI
Abstract
Il deep learning per la previsione delle serie temporali ha visto significativi progressi
negli ultimi decenni. Tuttavia, nonostante il successo del pre-training su larga scala
nei domini del linguaggio e della visione, i modelli pre-addestrati per le serie temporali rimangono limitati
in scala e operano a un costo elevato, ostacolando lo sviluppo di modelli di previsione più grandi
e capaci nelle applicazioni del mondo reale. In risposta, presentiamo Time-MoE, un'architettura scalabile e unificata progettata per pre-addestrare
modelli fondamentali di previsione più grandi e più capaci riducendo i costi di inferenza. Sfruttando un design a misto di esperti (MoE) sparso, Time-MoE
migliora l'efficienza computazionale attivando solo un sottoinsieme di reti per
ogni previsione, riducendo il carico computazionale mantenendo alta la capacità del modello.
Ciò consente a Time-MoE di scalare efficacemente senza un aumento corrispondente
nei costi di inferenza. Time-MoE comprende una famiglia di modelli transformer solo decoder
che operano in modo auto-regressivo e supportano orizzonti di previsione flessibili con varie lunghezze di contesto di input. Abbiamo
pre-addestrato questi modelli sui nostri nuovi dati su larga scala Time-300B,
che si estende su 9 domini e comprende oltre 300 miliardi di punti temporali. Per
la prima volta, abbiamo scalato un modello fondamentale per serie temporali fino a 2,4 miliardi
parametri, ottenendo una precisione di previsione significativamente migliorata. I nostri risultati
convalidano l'applicabilità delle leggi di scala per l'addestramento di token e la dimensione del modello
nel contesto della previsione delle serie temporali. Rispetto ai modelli densi con lo
stesso numero di parametri attivati o budget di calcolo equivalente, i nostri
modelli li superano costantemente di gran lunga. Questi progressi
posizionano Time-MoE come una soluzione all'avanguardia per affrontare le sfide della previsione delle serie temporali nel mondo reale con capacità, efficienza e
flessibilità superiori.
English
Deep learning for time series forecasting has seen significant advancements
over the past decades. However, despite the success of large-scale pre-training
in language and vision domains, pre-trained time series models remain limited
in scale and operate at a high cost, hindering the development of larger
capable forecasting models in real-world applications. In response, we
introduce Time-MoE, a scalable and unified architecture designed to pre-train
larger, more capable forecasting foundation models while reducing inference
costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE
enhances computational efficiency by activating only a subset of networks for
each prediction, reducing computational load while maintaining high model
capacity. This allows Time-MoE to scale effectively without a corresponding
increase in inference costs. Time-MoE comprises a family of decoder-only
transformer models that operate in an auto-regressive manner and support
flexible forecasting horizons with varying input context lengths. We
pre-trained these models on our newly introduced large-scale data Time-300B,
which spans over 9 domains and encompassing over 300 billion time points. For
the first time, we scaled a time series foundation model up to 2.4 billion
parameters, achieving significantly improved forecasting precision. Our results
validate the applicability of scaling laws for training tokens and model size
in the context of time series forecasting. Compared to dense models with the
same number of activated parameters or equivalent computation budgets, our
models consistently outperform them by large margin. These advancements
position Time-MoE as a state-of-the-art solution for tackling real-world time
series forecasting challenges with superior capability, efficiency, and
flexibility.Summary
AI-Generated Summary