QuitoBench: Un Benchmark Aperto di Alta Qualità per la Previsione di Serie Storiche

Abstract

La previsione di serie temporali è fondamentale in settori come la finanza, la sanità e il cloud computing, ma i progressi sono limitati da un collo di bottiglia fondamentale: la scarsità di benchmark di alta qualità e su larga scala. Per colmare questa lacuna, presentiamo QuitoBench, un benchmark bilanciato per regimi di previsione di serie temporali che copre otto regimi di trend/stagionalità/forecastabilità (TSF), progettato per catturare proprietà rilevanti per la previsione piuttosto che etichette di dominio definite dall'applicazione. Il benchmark è costruito su Quito, un corpus di serie temporali di miliardi di elementi basato sul traffico applicativo di Alipay che abbraccia nove domini business. Valutando 10 modelli di deep learning, modelli foundation e baseline statistiche su 232.200 istanze di valutazione, riportiamo quattro risultati chiave: (i) un crossover della lunghezza del contesto in cui i modelli di deep learning prevalgono per contesti brevi (L=96) mentre i modelli foundation dominano per contesti lunghi (L ≥ 576); (ii) la forecastabilità è il principale fattore di difficoltà, producendo un divario MAE di 3,64 volte tra i regimi; (iii) i modelli di deep learning equivalgono o superano i modelli foundation con 59 volte meno parametri; e (iv) l'aumento dei dati di addestramento apporta benefici sostanzialmente maggiori rispetto alla scalatura della dimensione del modello per entrambe le famiglie di modelli. Questi risultati sono validati da una forte coerenza cross-benchmark e cross-metrica. La nostra release open-source consente una valutazione riproducibile e consapevole dei regimi per la ricerca sulla previsione di serie temporali.

English

Time series forecasting is critical across finance, healthcare, and cloud computing, yet progress is constrained by a fundamental bottleneck: the scarcity of large-scale, high-quality benchmarks. To address this gap, we introduce QuitoBench, a regime-balanced benchmark for time series forecasting with coverage across eight trendtimesseasonalitytimesforecastability (TSF) regimes, designed to capture forecasting-relevant properties rather than application-defined domain labels. The benchmark is built upon Quito, a billion-scale time series corpus of application traffic from Alipay spanning nine business domains. Benchmarking 10 models from deep learning, foundation models, and statistical baselines across 232,200 evaluation instances, we report four key findings: (i) a context-length crossover where deep learning models lead at short context (L=96) but foundation models dominate at long context (L ge 576); (ii) forecastability is the dominant difficulty driver, producing a 3.64 times MAE gap across regimes; (iii) deep learning models match or surpass foundation models at 59 times fewer parameters; and (iv) scaling the amount of training data provides substantially greater benefit than scaling model size for both model families. These findings are validated by strong cross-benchmark and cross-metric consistency. Our open-source release enables reproducible, regime-aware evaluation for time series forecasting research.

QuitoBench: Un Benchmark Aperto di Alta Qualità per la Previsione di Serie Storiche

QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

Abstract

Support