Além dos Modelos Holísticos: Benchmarking Sistemático em Nível de Componentes da Previsão Profunda de Séries Temporais Multivariadas

Resumo

Enquanto pesquisas anteriores em previsão de séries temporais multivariadas concentraram-se no desenvolvimento de modelos holísticos complexos, este trabalho defende uma mudança para uma compreensão granular, em nível de componente, de seus impactos. Propomos o TSCOMP, o primeiro benchmark em larga escala que desconstrói sistematicamente métodos de previsão profunda em seus componentes essenciais e de granularidade fina — abrangendo pré-processamento de séries, estratégias de codificação, arquiteturas de redes, incluindo modelos específicos e de grande escala para séries temporais, e métodos de otimização. Utilizando projeto experimental ortogonal restrito e avaliações extensivas, conduzimos análises multivistas que revelam a eficácia dos componentes em diferentes backbones, características dos dados e suas interações. Além de fornecer insights, este benchmark estabelece um corpus de desempenho de granularidade fina, compreendendo mais de 20.000 avaliações modelo-conjunto de dados, que suporta o aprendizado de seleção automatizada de componentes, possibilitando a construção de modelos zero-shot em novos conjuntos de dados. Nossos experimentos demonstram que a abordagem orientada por corpus, apesar de sua simplicidade, supera consistentemente os métodos de última geração, validando a solidez do nosso design de avaliação e confirmando que a seleção sistemática de componentes supera arquiteturas complexas projetadas manualmente. Todo o código e o corpus de desempenho estão disponíveis publicamente em https://github.com/SUFE-AILAB/TSCOMP.

English

While previous research in multivariate time series forecasting has focused on developing complex holistic models, this work advocates for a shift toward a granular, component-level understanding of their impacts. We propose TSCOMP, the first large-scale benchmark that systematically deconstructs deep forecasting methods into their core, fine-grained components--spanning series preprocessing, encoding strategies, network architectures including specific and large time-series models, and optimization methods. Using constrained orthogonal experimental design and extensive evaluations, we conduct multi-view analyses that reveal component effectiveness across different backbones, data characteristics, and their interactions. Beyond providing insights, this benchmark establishes a fine-grained performance corpus comprising over 20,000 model-dataset evaluations, which supports the learning of automated component selection, enabling zero-shot model construction on new datasets. Our experiments demonstrate that the corpus-driven approach, despite its simplicity, consistently outperforms state-of-the-art methods, validating the soundness of our evaluation design and confirming that systematic component selection surpasses manually designed complex architectures. All code and the performance corpus are publicly available at https://github.com/SUFE-AILAB/TSCOMP.