ChatPaper.aiChatPaper

Time-MoE: 専門家の混合を用いた数十億規模の時系列基盤モデル

Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts

September 24, 2024
著者: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
cs.AI

要旨

過去数十年にわたり、時系列予測のためのディープラーニングは著しい進化を遂げてきました。しかし、言語やビジョン領域における大規模事前学習の成功にもかかわらず、事前学習された時系列モデルは規模に制限があり、高コストで動作するため、現実世界の応用におけるより大きな予測モデルの開発が妨げられています。この課題に対処するために、私たちはTime-MoEを導入します。これは、推論コストを削減しながら、より大規模で能力の高い予測基盤モデルを事前学習するために設計されたスケーラブルで統一されたアーキテクチャです。疎な専門家の混合設計を活用することで、Time-MoEは各予測ごとにネットワークのサブセットのみを活性化し、計算効率を向上させ、計算負荷を軽減しつつ高いモデル容量を維持します。これにより、Time-MoEは対応する推論コストの増加なしに効果的にスケーリングすることが可能となります。Time-MoEは、自己回帰的に動作し、異なる入力コンテキストの長さで柔軟な予測ホライズンをサポートするデコーダーのみのトランスフォーマーモデルのファミリーで構成されています。私たちは、新たに導入した大規模データセットTime-300Bでこれらのモデルを事前学習しました。このデータセットは9つのドメインにまたがり、3000億以上の時系列データポイントを含んでいます。初めて、時系列基盤モデルを24億のパラメータまでスケーリングし、予測精度を著しく向上させました。私たちの結果は、トークンやモデルサイズのトレーニングに関するスケーリング則が時系列予測の文脈において適用可能であることを検証しています。同じ数のアクティブなパラメータや同等の計算予算を持つ密なモデルと比較して、私たちのモデルは一貫して大きな差でそれらを上回っています。これらの進展により、Time-MoEは、卓越した能力、効率性、柔軟性を備えた現実世界の時系列予測課題に取り組むための最先端ソリューションとして位置付けられています。
English
Deep learning for time series forecasting has seen significant advancements over the past decades. However, despite the success of large-scale pre-training in language and vision domains, pre-trained time series models remain limited in scale and operate at a high cost, hindering the development of larger capable forecasting models in real-world applications. In response, we introduce Time-MoE, a scalable and unified architecture designed to pre-train larger, more capable forecasting foundation models while reducing inference costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE enhances computational efficiency by activating only a subset of networks for each prediction, reducing computational load while maintaining high model capacity. This allows Time-MoE to scale effectively without a corresponding increase in inference costs. Time-MoE comprises a family of decoder-only transformer models that operate in an auto-regressive manner and support flexible forecasting horizons with varying input context lengths. We pre-trained these models on our newly introduced large-scale data Time-300B, which spans over 9 domains and encompassing over 300 billion time points. For the first time, we scaled a time series foundation model up to 2.4 billion parameters, achieving significantly improved forecasting precision. Our results validate the applicability of scaling laws for training tokens and model size in the context of time series forecasting. Compared to dense models with the same number of activated parameters or equivalent computation budgets, our models consistently outperform them by large margin. These advancements position Time-MoE as a state-of-the-art solution for tackling real-world time series forecasting challenges with superior capability, efficiency, and flexibility.

Summary

AI-Generated Summary

PDF142November 16, 2024