QuitoBench: Ein hochwertiger offener Benchmark für Zeitreihenprognosen
QuitoBench: A High-Quality Open Time Series Forecasting Benchmark
March 27, 2026
Autoren: Siqiao Xue, Zhaoyang Zhu, Wei Zhang, Rongyao Cai, Rui Wang, Yixiang Mu, Fan Zhou, Jianguo Li, Peng Di, Hang Yu
cs.AI
Zusammenfassung
Die Zeitreihenprognose ist in den Bereichen Finanzen, Gesundheitswesen und Cloud-Computing von entscheidender Bedeutung, doch der Fortschritt wird durch einen grundlegenden Engpass eingeschränkt: den Mangel an groß angelegten, hochwertigen Benchmarks. Um diese Lücke zu schließen, stellen wir QuitoBench vor, einen regimesensitiv ausbalancierten Benchmark für die Zeitreihenprognose, der acht Trend-Saisonalität-Prognosefähigkeits-Regime (TSF-Regime) abdeckt und darauf ausgelegt ist, prognoserelevante Eigenschaften anstelle von anwendungsdefinierten Domänenlabels zu erfassen. Der Benchmark basiert auf Quito, einem milliardenschweren Zeitreihenkorpus von Anwendungsverkehr aus Alipay, der neun Geschäftsdomänen umspannt. Durch die Bewertung von 10 Modellen aus den Bereichen Deep Learning, Foundation Models und statistischen Baselines über 232.200 Evaluierungsinstanzen hinweg berichten wir vier zentrale Erkenntnisse: (i) einen Kontextlängen-Crossover, bei dem Deep-Learning-Modelle bei kurzem Kontext (L=96) führen, Foundation Models jedoch bei langem Kontext (L ≥ 576) dominieren; (ii) die Prognosefähigkeit ist der dominierende Schwierigkeitstreiber und erzeugt eine 3,64-fache MAE-Lücke über die Regime hinweg; (iii) Deep-Learning-Modelle erreichen bei 59-fach geringerer Parameterzahl die Leistung von Foundation Models oder übertreffen sie; und (iv) die Skalierung der Trainingsdatenmenge bringt für beide Modellfamilien einen wesentlich größeren Nutzen als die Skalierung der Modellgröße. Diese Erkenntnisse werden durch eine starke konsistente Übereinstimmung über Benchmarks und Metriken hinweg validiert. Unsere Open-Source-Veröffentlichung ermöglicht eine reproduzierbare, regimebewusste Evaluation für die Zeitreihenprognoseforschung.
English
Time series forecasting is critical across finance, healthcare, and cloud computing, yet progress is constrained by a fundamental bottleneck: the scarcity of large-scale, high-quality benchmarks. To address this gap, we introduce QuitoBench, a regime-balanced benchmark for time series forecasting with coverage across eight trendtimesseasonalitytimesforecastability (TSF) regimes, designed to capture forecasting-relevant properties rather than application-defined domain labels. The benchmark is built upon Quito, a billion-scale time series corpus of application traffic from Alipay spanning nine business domains. Benchmarking 10 models from deep learning, foundation models, and statistical baselines across 232,200 evaluation instances, we report four key findings: (i) a context-length crossover where deep learning models lead at short context (L=96) but foundation models dominate at long context (L ge 576); (ii) forecastability is the dominant difficulty driver, producing a 3.64 times MAE gap across regimes; (iii) deep learning models match or surpass foundation models at 59 times fewer parameters; and (iv) scaling the amount of training data provides substantially greater benefit than scaling model size for both model families. These findings are validated by strong cross-benchmark and cross-metric consistency. Our open-source release enables reproducible, regime-aware evaluation for time series forecasting research.