За пределами целостных моделей: систематическое покомпонентное бенчмаркирование глубокого многомерного прогнозирования временных рядов

Аннотация

В то время как предыдущие исследования в области многомерного прогнозирования временных рядов были сосредоточены на разработке сложных целостных моделей, данная работа призывает к переходу к детальному, покомпонентному пониманию их влияния. Мы предлагаем TSCOMP — первый крупномасштабный бенчмарк, который систематически деконструирует методы глубокого прогнозирования до их основных, тонкозернистых компонентов, охватывающих предварительную обработку рядов, стратегии кодирования, архитектуры нейронных сетей, включая специализированные и большие модели временных рядов, а также методы оптимизации. Используя ограниченный ортогональный экспериментальный план и обширные оценки, мы проводим многоаспектный анализ, который выявляет эффективность компонентов в различных базовых архитектурах, характеристиках данных и их взаимодействиях. Помимо предоставления аналитических выводов, этот бенчмарк создает тонкозернистый корпус производительности, включающий более 20 000 оценок по парам «модель–набор данных», что поддерживает обучение автоматическому выбору компонентов и позволяет создавать модели без обучения на новых наборах данных. Наши эксперименты показывают, что подход, основанный на корпусе, несмотря на свою простоту, стабильно превосходит современные методы, подтверждая обоснованность нашего дизайна оценки и демонстрируя, что систематический выбор компонентов превосходит вручную разработанные сложные архитектуры. Весь код и корпус производительности доступны по адресу https://github.com/SUFE-AILAB/TSCOMP.

English

While previous research in multivariate time series forecasting has focused on developing complex holistic models, this work advocates for a shift toward a granular, component-level understanding of their impacts. We propose TSCOMP, the first large-scale benchmark that systematically deconstructs deep forecasting methods into their core, fine-grained components--spanning series preprocessing, encoding strategies, network architectures including specific and large time-series models, and optimization methods. Using constrained orthogonal experimental design and extensive evaluations, we conduct multi-view analyses that reveal component effectiveness across different backbones, data characteristics, and their interactions. Beyond providing insights, this benchmark establishes a fine-grained performance corpus comprising over 20,000 model-dataset evaluations, which supports the learning of automated component selection, enabling zero-shot model construction on new datasets. Our experiments demonstrate that the corpus-driven approach, despite its simplicity, consistently outperforms state-of-the-art methods, validating the soundness of our evaluation design and confirming that systematic component selection surpasses manually designed complex architectures. All code and the performance corpus are publicly available at https://github.com/SUFE-AILAB/TSCOMP.