Au-delà des modèles holistiques : Évaluation comparative systématique au niveau des composants de la prévision de séries temporelles multivariées profondes

Résumé

Alors que les recherches antérieures sur la prévision de séries temporelles multivariées se sont concentrées sur le développement de modèles holistiques complexes, ce travail prône un changement vers une compréhension granulaire, au niveau des composants, de leurs impacts. Nous proposons TSCOMP, le premier benchmark à grande échelle qui déconstruit systématiquement les méthodes de prévision profondes en leurs composants fondamentaux et fins — couvrant le prétraitement des séries, les stratégies d’encodage, les architectures de réseau incluant des modèles de séries temporelles spécifiques et de grande taille, ainsi que les méthodes d’optimisation. En utilisant une conception expérimentale orthogonale contrainte et des évaluations approfondies, nous menons des analyses multi-vues qui révèlent l’efficacité des composants à travers différents fondements, caractéristiques des données et leurs interactions. Au-delà d’apporter des perspectives, ce benchmark établit un corpus de performance fin comprenant plus de 20 000 évaluations modèle-ensemble de données, ce qui soutient l’apprentissage de la sélection automatisée de composants, permettant la construction de modèles zero-shot sur de nouveaux ensembles de données. Nos expériences démontrent que l’approche basée sur le corpus, malgré sa simplicité, surpasse systématiquement les méthodes de pointe, validant la robustesse de notre conception d’évaluation et confirmant que la sélection systématique des composants dépasse les architectures complexes conçues manuellement. Tout le code et le corpus de performance sont disponibles publiquement à l’adresse https://github.com/SUFE-AILAB/TSCOMP.

English

While previous research in multivariate time series forecasting has focused on developing complex holistic models, this work advocates for a shift toward a granular, component-level understanding of their impacts. We propose TSCOMP, the first large-scale benchmark that systematically deconstructs deep forecasting methods into their core, fine-grained components--spanning series preprocessing, encoding strategies, network architectures including specific and large time-series models, and optimization methods. Using constrained orthogonal experimental design and extensive evaluations, we conduct multi-view analyses that reveal component effectiveness across different backbones, data characteristics, and their interactions. Beyond providing insights, this benchmark establishes a fine-grained performance corpus comprising over 20,000 model-dataset evaluations, which supports the learning of automated component selection, enabling zero-shot model construction on new datasets. Our experiments demonstrate that the corpus-driven approach, despite its simplicity, consistently outperforms state-of-the-art methods, validating the soundness of our evaluation design and confirming that systematic component selection surpasses manually designed complex architectures. All code and the performance corpus are publicly available at https://github.com/SUFE-AILAB/TSCOMP.