Time-MoE: Модели основы временных рядов масштаба миллиарда смесью экспертов
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
September 24, 2024
Авторы: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
cs.AI
Аннотация
Глубокое обучение для прогнозирования временных рядов продемонстрировало значительные достижения за последние десятилетия. Однако, несмотря на успех масштабного предварительного обучения в областях языка и зрения, предварительно обученные модели временных рядов остаются ограниченными по масштабу и работают с высокими затратами, затрудняя разработку более крупных и способных моделей прогнозирования в реальных приложениях. В ответ на это мы представляем Time-MoE, масштабируемую и объединенную архитектуру, разработанную для предварительного обучения более крупных и способных базовых моделей прогнозирования, снижая затраты на вывод. Используя разреженное конструктивное представление смеси экспертов (MoE), Time-MoE повышает вычислительную эффективность, активируя только подмножество сетей для каждого прогноза, снижая вычислительную нагрузку, сохраняя при этом высокую емкость модели. Это позволяет Time-MoE эффективно масштабироваться без соответствующего увеличения затрат на вывод. Time-MoE включает в себя семейство моделей трансформера только с декодером, работающих в авторегрессионном режиме и поддерживающих гибкие горизонты прогнозирования с различными длинами входного контекста. Мы предварительно обучили эти модели на наших вновь введенных данных большого масштаба Time-300B, охватывающих 9 областей и более 300 миллиардов временных точек. Впервые мы увеличили масштаб базовой модели временного ряда до 2,4 миллиарда параметров, достигнув значительного улучшения точности прогнозирования. Наши результаты подтверждают применимость законов масштабирования для обучения токенов и размера модели в контексте прогнозирования временных рядов. По сравнению с плотными моделями с тем же количеством активированных параметров или эквивалентными бюджетами вычислений, наши модели последовательно превосходят их с большим отрывом. Эти достижения позиционируют Time-MoE как передовое решение для решения вызовов прогнозирования временных рядов в реальном мире с превосходной способностью, эффективностью и гибкостью.
English
Deep learning for time series forecasting has seen significant advancements
over the past decades. However, despite the success of large-scale pre-training
in language and vision domains, pre-trained time series models remain limited
in scale and operate at a high cost, hindering the development of larger
capable forecasting models in real-world applications. In response, we
introduce Time-MoE, a scalable and unified architecture designed to pre-train
larger, more capable forecasting foundation models while reducing inference
costs. By leveraging a sparse mixture-of-experts (MoE) design, Time-MoE
enhances computational efficiency by activating only a subset of networks for
each prediction, reducing computational load while maintaining high model
capacity. This allows Time-MoE to scale effectively without a corresponding
increase in inference costs. Time-MoE comprises a family of decoder-only
transformer models that operate in an auto-regressive manner and support
flexible forecasting horizons with varying input context lengths. We
pre-trained these models on our newly introduced large-scale data Time-300B,
which spans over 9 domains and encompassing over 300 billion time points. For
the first time, we scaled a time series foundation model up to 2.4 billion
parameters, achieving significantly improved forecasting precision. Our results
validate the applicability of scaling laws for training tokens and model size
in the context of time series forecasting. Compared to dense models with the
same number of activated parameters or equivalent computation budgets, our
models consistently outperform them by large margin. These advancements
position Time-MoE as a state-of-the-art solution for tackling real-world time
series forecasting challenges with superior capability, efficiency, and
flexibility.Summary
AI-Generated Summary