QuitoBench: Um Benchmark Aberto de Alta Qualidade para Previsão de Séries Temporais

Resumo

A previsão de séries temporais é crítica em áreas como finanças, saúde e computação em nuvem, mas o progresso é limitado por um gargalo fundamental: a escassez de benchmarks em larga escala e de alta qualidade. Para preencher essa lacuna, apresentamos o QuitoBench, um benchmark balanceado por regime para previsão de séries temporais, com cobertura em oito regimes de tendência-sazonalidade-previsibilidade (TSF), projetado para capturar propriedades relevantes para a previsão, em vez de rótulos de domínio definidos por aplicação. O benchmark é construído sobre o Quito, um corpus de bilhões de séries temporais de tráfego de aplicações do Alipay, abrangendo nove domínios de negócio. Ao avaliar 10 modelos de aprendizado profundo, modelos de base (foundation models) e linhas de base estatísticas em 232.200 instâncias de avaliação, relatamos quatro descobertas principais: (i) um ponto de crossover no comprimento do contexto, onde modelos de aprendizado profundo lideram em contextos curtos (L=96), mas os modelos de base dominam em contextos longos (L ≥ 576); (ii) a previsibilidade é o principal fator de dificuldade, produzindo uma diferença de MAE 3,64 vezes maior entre os regimes; (iii) modelos de aprendizado profundo igualam ou superam os modelos de base com 59 vezes menos parâmetros; e (iv) escalar a quantidade de dados de treinamento oferece um benef substancialmente maior do que escalar o tamanho do modelo para ambas as famílias de modelos. Essas descobertas são validadas por uma forte consistência cruzada entre benchmarks e métricas. Nossa disponibilização em código aberto permite uma avaliação reproduzível e consciente dos regimes para a pesquisa em previsão de séries temporais.

English

Time series forecasting is critical across finance, healthcare, and cloud computing, yet progress is constrained by a fundamental bottleneck: the scarcity of large-scale, high-quality benchmarks. To address this gap, we introduce QuitoBench, a regime-balanced benchmark for time series forecasting with coverage across eight trendtimesseasonalitytimesforecastability (TSF) regimes, designed to capture forecasting-relevant properties rather than application-defined domain labels. The benchmark is built upon Quito, a billion-scale time series corpus of application traffic from Alipay spanning nine business domains. Benchmarking 10 models from deep learning, foundation models, and statistical baselines across 232,200 evaluation instances, we report four key findings: (i) a context-length crossover where deep learning models lead at short context (L=96) but foundation models dominate at long context (L ge 576); (ii) forecastability is the dominant difficulty driver, producing a 3.64 times MAE gap across regimes; (iii) deep learning models match or surpass foundation models at 59 times fewer parameters; and (iv) scaling the amount of training data provides substantially greater benefit than scaling model size for both model families. These findings are validated by strong cross-benchmark and cross-metric consistency. Our open-source release enables reproducible, regime-aware evaluation for time series forecasting research.