Más allá de los modelos holísticos: Evaluación comparativa sistemática a nivel de componentes del pronóstico profundo de series temporales multivariantes

Resumen

Mientras que investigaciones previas en predicción de series temporales multivariantes se han centrado en desarrollar modelos holísticos complejos, este trabajo aboga por un cambio hacia una comprensión granular a nivel de componentes de sus impactos. Proponemos TSCOMP, el primer banco de pruebas a gran escala que descompone sistemáticamente los métodos de predicción profunda en sus componentes fundamentales y de grano fino, abarcando preprocesamiento de series, estrategias de codificación, arquitecturas de redes —incluyendo modelos de series temporales específicos y de gran escala—, y métodos de optimización. Mediante un diseño experimental ortogonal restringido y evaluaciones exhaustivas, realizamos análisis multivista que revelan la efectividad de los componentes en diferentes arquitecturas base, características de los datos y sus interacciones. Más allá de proporcionar perspectivas, este banco de pruebas establece un corpus de rendimiento de grano fino que comprende más de 20,000 evaluaciones de modelos sobre conjuntos de datos, lo que respalda el aprendizaje de la selección automatizada de componentes, permitiendo la construcción de modelos en nuevos conjuntos de datos sin necesidad de entrenamiento adicional. Nuestros experimentos demuestran que el enfoque basado en el corpus, a pesar de su simplicidad, supera consistentemente a los métodos de última generación, validando la solidez de nuestro diseño de evaluación y confirmando que la selección sistemática de componentes supera a las arquitecturas complejas diseñadas manualmente. Todo el código y el corpus de rendimiento están disponibles públicamente en https://github.com/SUFE-AILAB/TSCOMP.

English

While previous research in multivariate time series forecasting has focused on developing complex holistic models, this work advocates for a shift toward a granular, component-level understanding of their impacts. We propose TSCOMP, the first large-scale benchmark that systematically deconstructs deep forecasting methods into their core, fine-grained components--spanning series preprocessing, encoding strategies, network architectures including specific and large time-series models, and optimization methods. Using constrained orthogonal experimental design and extensive evaluations, we conduct multi-view analyses that reveal component effectiveness across different backbones, data characteristics, and their interactions. Beyond providing insights, this benchmark establishes a fine-grained performance corpus comprising over 20,000 model-dataset evaluations, which supports the learning of automated component selection, enabling zero-shot model construction on new datasets. Our experiments demonstrate that the corpus-driven approach, despite its simplicity, consistently outperforms state-of-the-art methods, validating the soundness of our evaluation design and confirming that systematic component selection surpasses manually designed complex architectures. All code and the performance corpus are publicly available at https://github.com/SUFE-AILAB/TSCOMP.