Jenseits holistischer Modelle: Systematisches Benchmarking auf Komponentenebene für tiefe multivariate Zeitreihenprognose

Zusammenfassung

Während frühere Forschung zur multivariaten Zeitreihenprognose sich auf die Entwicklung komplexer holistischer Modelle konzentrierte, plädiert diese Arbeit für eine Hinwendung zu einem granularen, komponentenbasierten Verständnis ihrer Auswirkungen. Wir schlagen TSCOMP vor, die erste groß angelegte Benchmark, die Methoden des maschinellen Lernens für Zeitreihenprognosen systematisch in ihre feingranularen Kernkomponenten zerlegt – einschließlich Reihenvorverarbeitung, Kodierungsstrategien, Netzwerkarchitekturen (sowohl spezifische als auch große Zeitreihenmodelle) und Optimierungsmethoden. Mittels eines restringierten orthogonalen Versuchsplans und umfangreicher Evaluierungen führen wir multi-perspektivische Analysen durch, die die Wirksamkeit von Komponenten in verschiedenen Grundarchitekturen, Datencharakteristiken sowie deren Interaktionen aufzeigen. Über die Bereitstellung von Erkenntnissen hinaus etabliert diese Benchmark ein feingranulares Performanzkorpus mit über 20.000 Modell-Datensatz-Evaluierungen, das das Erlernen einer automatischen Komponentenauswahl unterstützt und eine Null-Schritt-Modellkonstruktion für neue Datensätze ermöglicht. Unsere Experimente zeigen, dass der korpusgesteuerte Ansatz trotz seiner Einfachheit durchgängig bessere Ergebnisse erzielt als moderne Verfahren, was die Solidität unseres Evaluierungsdesigns bestätigt und belegt, dass eine systematische Komponentenauswahl manuell entworfenen komplexen Architekturen überlegen ist. Der gesamte Code und das Performanzkorpus sind öffentlich verfügbar unter https://github.com/SUFE-AILAB/TSCOMP.

English

While previous research in multivariate time series forecasting has focused on developing complex holistic models, this work advocates for a shift toward a granular, component-level understanding of their impacts. We propose TSCOMP, the first large-scale benchmark that systematically deconstructs deep forecasting methods into their core, fine-grained components--spanning series preprocessing, encoding strategies, network architectures including specific and large time-series models, and optimization methods. Using constrained orthogonal experimental design and extensive evaluations, we conduct multi-view analyses that reveal component effectiveness across different backbones, data characteristics, and their interactions. Beyond providing insights, this benchmark establishes a fine-grained performance corpus comprising over 20,000 model-dataset evaluations, which supports the learning of automated component selection, enabling zero-shot model construction on new datasets. Our experiments demonstrate that the corpus-driven approach, despite its simplicity, consistently outperforms state-of-the-art methods, validating the soundness of our evaluation design and confirming that systematic component selection surpasses manually designed complex architectures. All code and the performance corpus are publicly available at https://github.com/SUFE-AILAB/TSCOMP.