Time-MoE: Milliardenmaßstab-Zeitreihen-Grundlagenmodelle mit Mischung von Experten
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
September 24, 2024
Autoren: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
cs.AI
Zusammenfassung
Das Deep Learning für die Vorhersage von Zeitreihen hat in den letzten Jahrzehnten signifikante Fortschritte verzeichnet. Trotz des Erfolgs des groß angelegten Pre-Trainings in den Bereichen Sprache und Vision sind vortrainierte Zeitreihenmodelle in Bezug auf Größe begrenzt und arbeiten mit hohen Kosten, was die Entwicklung größerer, leistungsfähigerer Vorhersagemodelle in realen Anwendungen behindert. Als Antwort darauf stellen wir Time-MoE vor, eine skalierbare und vereinheitlichte Architektur, die darauf ausgelegt ist, größere und leistungsfähigere Grundlagenmodelle für die Vorhersage vorzutrainieren und gleichzeitig die Inferenzkosten zu senken. Durch die Nutzung eines spärlichen Mixture-of-Experts (MoE)-Designs verbessert Time-MoE die Recheneffizienz, indem nur eine Teilmenge der Netzwerke für jede Vorhersage aktiviert wird, was die Rechenlast reduziert und gleichzeitig die hohe Modellkapazität beibehält. Dies ermöglicht es Time-MoE, effektiv zu skalieren, ohne dass die Inferenzkosten entsprechend steigen. Time-MoE besteht aus einer Familie von Decoder-only-Transformer-Modellen, die in einer autoregressiven Weise arbeiten und flexible Vorhersagehorizonte mit variierenden Eingabekontextlängen unterstützen. Wir haben diese Modelle auf unseren neu eingeführten groß angelegten Datensatz Time-300B vortrainiert, der über 9 Domänen erstreckt und mehr als 300 Milliarden Zeitpunkte umfasst. Zum ersten Mal haben wir ein Zeitreihen-Grundlagenmodell auf 2,4 Milliarden Parametern hochskaliert und dabei eine signifikant verbesserte Vorhersagegenauigkeit erzielt. Unsere Ergebnisse bestätigen die Anwendbarkeit von Skalierungsgesetzen für das Training von Tokens und Modellgröße im Kontext der Zeitreihenvorhersage. Im Vergleich zu dichten Modellen mit derselben Anzahl aktivierter Parameter oder äquivalenten Rechenbudgets übertreffen unsere Modelle sie durchweg deutlich. Diese Fortschritte positionieren Time-MoE als eine hochmoderne Lösung zur Bewältigung von Herausforderungen bei der Vorhersage von Zeitreihen in der realen Welt mit überlegener Leistungsfähigkeit, Effizienz und Flexibilität.
English
Deep learning for time series forecasting has seen significant advancements
over the past decades. However, despite the success of large-scale pre-training
in language and vision domains, pre-trained time series models remain limited
in scale and operate at a high cost, hindering the development of larger
capable forecasting models in real-world applications. In response, we
introduce Time-MoE, a scalable and unified architecture designed to pre-train
larger, more capable forecasting foundation models while reducing inference
costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE
enhances computational efficiency by activating only a subset of networks for
each prediction, reducing computational load while maintaining high model
capacity. This allows Time-MoE to scale effectively without a corresponding
increase in inference costs. Time-MoE comprises a family of decoder-only
transformer models that operate in an auto-regressive manner and support
flexible forecasting horizons with varying input context lengths. We
pre-trained these models on our newly introduced large-scale data Time-300B,
which spans over 9 domains and encompassing over 300 billion time points. For
the first time, we scaled a time series foundation model up to 2.4 billion
parameters, achieving significantly improved forecasting precision. Our results
validate the applicability of scaling laws for training tokens and model size
in the context of time series forecasting. Compared to dense models with the
same number of activated parameters or equivalent computation budgets, our
models consistently outperform them by large margin. These advancements
position Time-MoE as a state-of-the-art solution for tackling real-world time
series forecasting challenges with superior capability, efficiency, and
flexibility.Summary
AI-Generated Summary