Time-MoE: Modelos Fundamentais de Séries Temporais em Escala Bilionária com Mistura de Especialistas
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
September 24, 2024
Autores: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
cs.AI
Resumo
A aprendizagem profunda para previsão de séries temporais tem visto avanços significativos nas últimas décadas. No entanto, apesar do sucesso do pré-treinamento em larga escala nos domínios de linguagem e visão, os modelos pré-treinados de séries temporais permanecem limitados em escala e operam a um custo elevado, dificultando o desenvolvimento de modelos de previsão mais capazes em aplicações do mundo real. Em resposta, apresentamos o Time-MoE, uma arquitetura escalável e unificada projetada para pré-treinar modelos de fundação de previsão maiores e mais capazes, reduzindo os custos de inferência. Ao alavancar um design de mistura de especialistas (MoE) esparsa, o Time-MoE aprimora a eficiência computacional ativando apenas um subconjunto de redes para cada previsão, reduzindo a carga computacional mantendo alta capacidade do modelo. Isso permite que o Time-MoE escale efetivamente sem um aumento correspondente nos custos de inferência. O Time-MoE é composto por uma família de modelos transformadores apenas decodificadores que operam de forma autoregressiva e suportam horizontes de previsão flexíveis com diferentes comprimentos de contexto de entrada. Pré-treinamos esses modelos em nossos dados em grande escala recém-introduzidos, o Time-300B, que abrange mais de 9 domínios e mais de 300 bilhões de pontos temporais. Pela primeira vez, escalamos um modelo de fundação de séries temporais para 2,4 bilhões de parâmetros, alcançando uma precisão de previsão significativamente melhorada. Nossos resultados validam a aplicabilidade das leis de escala para treinamento de tokens e tamanho do modelo no contexto de previsão de séries temporais. Comparados a modelos densos com o mesmo número de parâmetros ativados ou orçamentos de computação equivalentes, nossos modelos consistentemente superam significativamente. Esses avanços posicionam o Time-MoE como uma solução de ponta para enfrentar desafios de previsão de séries temporais do mundo real com capacidade, eficiência e flexibilidade superiores.
English
Deep learning for time series forecasting has seen significant advancements
over the past decades. However, despite the success of large-scale pre-training
in language and vision domains, pre-trained time series models remain limited
in scale and operate at a high cost, hindering the development of larger
capable forecasting models in real-world applications. In response, we
introduce Time-MoE, a scalable and unified architecture designed to pre-train
larger, more capable forecasting foundation models while reducing inference
costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE
enhances computational efficiency by activating only a subset of networks for
each prediction, reducing computational load while maintaining high model
capacity. This allows Time-MoE to scale effectively without a corresponding
increase in inference costs. Time-MoE comprises a family of decoder-only
transformer models that operate in an auto-regressive manner and support
flexible forecasting horizons with varying input context lengths. We
pre-trained these models on our newly introduced large-scale data Time-300B,
which spans over 9 domains and encompassing over 300 billion time points. For
the first time, we scaled a time series foundation model up to 2.4 billion
parameters, achieving significantly improved forecasting precision. Our results
validate the applicability of scaling laws for training tokens and model size
in the context of time series forecasting. Compared to dense models with the
same number of activated parameters or equivalent computation budgets, our
models consistently outperform them by large margin. These advancements
position Time-MoE as a state-of-the-art solution for tackling real-world time
series forecasting challenges with superior capability, efficiency, and
flexibility.Summary
AI-Generated Summary