QuitoBench: Een hoogwaardige open benchmark voor tijdreeksvoorspelling

Samenvatting

Tijdreeksvoorspelling is cruciaal in sectoren zoals financiën, gezondheidszorg en cloudcomputing, maar de vooruitgang wordt beperkt door een fundamenteel knelpunt: het gebrek aan grootschalige, hoogwaardige benchmarks. Om deze leemte op te vullen, introduceren wij QuitoBench, een regime-gebalanceerde benchmark voor tijdreeksvoorspelling die acht trend-seizoensgebondenheid-voorspelbaarheid (TSV) regimes bestrijkt. Deze benchmark is ontworpen om voorspellingsrelevante eigenschappen vast te leggen in plaats van toepassingsgedefinieerde domeinlabels. De benchmark is gebaseerd op Quito, een tijdreekscorpus van miljarden datapunten van applicatieverkeer van Alipay, afkomstig uit negen bedrijfsdomeinen. Door 10 modellen van deep learning, foundation modellen en statistische basislijnen te testen over 232.200 evaluatie-instances, rapporteren we vier belangrijke bevindingen: (i) een contextlengte-kruispunt waar deep learning-modellen leiden bij korte context (L=96), maar foundation modellen domineren bij lange context (L ≥ 576); (ii) voorspelbaarheid is de dominante moeilijkheidsfactor, wat een 3,64 keer groter MAE-gat tussen regimes veroorzaakt; (iii) deep learning-modellen evenaren of overtreffen foundation modellen met 59 keer minder parameters; en (iv) het schalen van de hoeveelheid trainingsdata levert aanzienlijk meer voordeel op dan het schalen van de modelgrootte voor beide modelfamilies. Deze bevindingen worden bevestigd door een sterke consistentie over benchmarks en metrieken heen. Onze open-source release maakt reproduceerbare, regime-bewuste evaluatie voor tijdreeksvoorspellingsonderzoek mogelijk.

English

Time series forecasting is critical across finance, healthcare, and cloud computing, yet progress is constrained by a fundamental bottleneck: the scarcity of large-scale, high-quality benchmarks. To address this gap, we introduce QuitoBench, a regime-balanced benchmark for time series forecasting with coverage across eight trendtimesseasonalitytimesforecastability (TSF) regimes, designed to capture forecasting-relevant properties rather than application-defined domain labels. The benchmark is built upon Quito, a billion-scale time series corpus of application traffic from Alipay spanning nine business domains. Benchmarking 10 models from deep learning, foundation models, and statistical baselines across 232,200 evaluation instances, we report four key findings: (i) a context-length crossover where deep learning models lead at short context (L=96) but foundation models dominate at long context (L ge 576); (ii) forecastability is the dominant difficulty driver, producing a 3.64 times MAE gap across regimes; (iii) deep learning models match or surpass foundation models at 59 times fewer parameters; and (iv) scaling the amount of training data provides substantially greater benefit than scaling model size for both model families. These findings are validated by strong cross-benchmark and cross-metric consistency. Our open-source release enables reproducible, regime-aware evaluation for time series forecasting research.

QuitoBench: Een hoogwaardige open benchmark voor tijdreeksvoorspelling

QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

Samenvatting

Support