Tijd-MoE: Tijdreeksfundamentmodellen op miljardenschaal met Mengsel van Experts
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
September 24, 2024
Auteurs: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
cs.AI
Samenvatting
Diepe leer voor tijdreeksvoorspelling heeft de afgelopen decennia aanzienlijke vooruitgang geboekt. Echter, ondanks het succes van grootschalige voorafgaande training in taal- en visiegebieden, blijven vooraf getrainde tijdreeksmodellen beperkt in omvang en werken ze tegen hoge kosten, wat de ontwikkeling van grotere capabele voorspellingsmodellen in praktische toepassingen belemmert. Als reactie introduceren wij Time-MoE, een schaalbare en uniforme architectuur ontworpen om grotere, capabelere voorspellingsgrondslagmodellen voor te trainen en tegelijkertijd inferentiekosten te verlagen. Door gebruik te maken van een schaars mengsel-van-experts (MoE) ontwerp, verbetert Time-MoE de computationele efficiëntie door slechts een subset van netwerken te activeren voor elke voorspelling, waardoor de computationele belasting wordt verminderd terwijl de hoge modelcapaciteit behouden blijft. Dit stelt Time-MoE in staat om effectief op te schalen zonder een overeenkomstige toename in inferentiekosten. Time-MoE bestaat uit een familie van alleen-decoder transformermodellen die op een autoregressieve manier werken en flexibele voorspellingshorizonten ondersteunen met variërende invoercontextlengtes. We hebben deze modellen vooraf getraind op onze nieuw geïntroduceerde grootschalige dataset Time-300B, die zich uitstrekt over 9 domeinen en meer dan 300 miljard tijdstippen omvat. Voor het eerst hebben we een tijdreeksgrondslagmodel opgeschaald naar 2,4 miljard parameters, met aanzienlijk verbeterde voorspellingsnauwkeurigheid. Onze resultaten bevestigen de toepasbaarheid van schalingswetten voor het trainen van tokens en modelgrootte in de context van tijdreeksvoorspelling. Vergeleken met dichte modellen met hetzelfde aantal geactiveerde parameters of equivalentie rekenbudget, presteren onze modellen consequent aanzienlijk beter. Deze vooruitgang positioneert Time-MoE als een state-of-the-art oplossing voor het aanpakken van uitdagingen in de praktijk van tijdreeksvoorspelling met superieure capaciteit, efficiëntie en flexibiliteit.
English
Deep learning for time series forecasting has seen significant advancements
over the past decades. However, despite the success of large-scale pre-training
in language and vision domains, pre-trained time series models remain limited
in scale and operate at a high cost, hindering the development of larger
capable forecasting models in real-world applications. In response, we
introduce Time-MoE, a scalable and unified architecture designed to pre-train
larger, more capable forecasting foundation models while reducing inference
costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE
enhances computational efficiency by activating only a subset of networks for
each prediction, reducing computational load while maintaining high model
capacity. This allows Time-MoE to scale effectively without a corresponding
increase in inference costs. Time-MoE comprises a family of decoder-only
transformer models that operate in an auto-regressive manner and support
flexible forecasting horizons with varying input context lengths. We
pre-trained these models on our newly introduced large-scale data Time-300B,
which spans over 9 domains and encompassing over 300 billion time points. For
the first time, we scaled a time series foundation model up to 2.4 billion
parameters, achieving significantly improved forecasting precision. Our results
validate the applicability of scaling laws for training tokens and model size
in the context of time series forecasting. Compared to dense models with the
same number of activated parameters or equivalent computation budgets, our
models consistently outperform them by large margin. These advancements
position Time-MoE as a state-of-the-art solution for tackling real-world time
series forecasting challenges with superior capability, efficiency, and
flexibility.Summary
AI-Generated Summary