QuitoBench : Un Benchmark Ouvert de Haute Qualité pour la Prévision de Séries Temporelles
QuitoBench: A High-Quality Open Time Series Forecasting Benchmark
March 27, 2026
Auteurs: Siqiao Xue, Zhaoyang Zhu, Wei Zhang, Rongyao Cai, Rui Wang, Yixiang Mu, Fan Zhou, Jianguo Li, Peng Di, Hang Yu
cs.AI
Résumé
La prévision de séries temporelles est cruciale dans les domaines de la finance, de la santé et de l'informatique en nuage, mais les progrès sont limités par un goulot d'étranglement fondamental : la rareté de référentiels de grande taille et de haute qualité. Pour combler cette lacune, nous présentons QuitoBench, un référentiel à régimes équilibrés pour la prévision de séries temporelles couvrant huit régimes de tendances/saisonnalités/prévisibilité (TSF), conçu pour capturer des propriétés pertinentes pour la prévision plutôt que des labels de domaine définis par l'application. Ce référentiel est construit sur Quito, un corpus de séries temporelles à l'échelle du milliard représentant le trafic applicatif d'Alipay couvrant neuf domaines métier. En évaluant 10 modèles issus de l'apprentissage profond, des modèles de fondation et des modèles statistiques de référence sur 232 200 instances d'évaluation, nous rapportons quatre résultats clés : (i) un croisement lié à la longueur du contexte où les modèles d'apprentissage profond mènent avec un contexte court (L=96) mais où les modèles de fondation dominent avec un contexte long (L ≥ 576) ; (ii) la prévisibilité est le principal facteur de difficulté, produisant un écart d'EMAP de 3,64 fois entre les régimes ; (iii) les modèles d'apprentissage profond égalent ou surpassent les modèles de fondation avec 59 fois moins de paramètres ; et (iv) l'augmentation du volume de données d'entraînement procure un bénéfice substantiellement plus important que l'augmentation de la taille du modèle pour les deux familles de modèles. Ces résultats sont validés par une forte cohérence inter-référentielle et inter-métrique. Notre publication en code source ouvert permet une évaluation reproductible et consciente des régimes pour la recherche en prévision de séries temporelles.
English
Time series forecasting is critical across finance, healthcare, and cloud computing, yet progress is constrained by a fundamental bottleneck: the scarcity of large-scale, high-quality benchmarks. To address this gap, we introduce QuitoBench, a regime-balanced benchmark for time series forecasting with coverage across eight trendtimesseasonalitytimesforecastability (TSF) regimes, designed to capture forecasting-relevant properties rather than application-defined domain labels. The benchmark is built upon Quito, a billion-scale time series corpus of application traffic from Alipay spanning nine business domains. Benchmarking 10 models from deep learning, foundation models, and statistical baselines across 232,200 evaluation instances, we report four key findings: (i) a context-length crossover where deep learning models lead at short context (L=96) but foundation models dominate at long context (L ge 576); (ii) forecastability is the dominant difficulty driver, producing a 3.64 times MAE gap across regimes; (iii) deep learning models match or surpass foundation models at 59 times fewer parameters; and (iv) scaling the amount of training data provides substantially greater benefit than scaling model size for both model families. These findings are validated by strong cross-benchmark and cross-metric consistency. Our open-source release enables reproducible, regime-aware evaluation for time series forecasting research.