ChatPaper.aiChatPaper

QuitoBench: 高品質なオープン時系列予測ベンチマーク

QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

March 27, 2026
著者: Siqiao Xue, Zhaoyang Zhu, Wei Zhang, Rongyao Cai, Rui Wang, Yixiang Mu, Fan Zhou, Jianguo Li, Peng Di, Hang Yu
cs.AI

要旨

時系列予測は金融、医療、クラウドコンピューティングなど様々な分野で重要であるにもかかわらず、大規模で高品質なベンチマークの不足という根本的なボトルネックによって進展が制約されている。この課題を解決するため、我々は応用領域によるラベルではなく予測関連特性に焦点を当てた、8つのトレンド/季節性/予測可能性(TSF)領域を網羅する体制均衡型ベンチマーク「QuitoBench」を提案する。本ベンチマークは、Alipayの9つの事業領域にわたるアプリケーショントラフィックからなる10億規模の時系列コーパス「Quito」に基づいて構築されている。深層学習、基盤モデル、統計的ベースラインからなる10モデルを232,200の評価インスタンスで比較した結果、以下の4つの主要な知見を得た:(i)深層学習モデルが短いコンテキスト長(L=96)で優位に立つが、基盤モデルが長いコンテキスト長(L≥576)で支配的となる「コンテキスト長クロスオーバー」現象、(ii)予測可能性が主要な難易度決定要因であり、体制間でMAEに3.64倍の差が生じること、(iii)深層学習モデルがパラメータ数を59分の1に抑えながら基盤モデルに匹敵または凌駕する性能を示すこと、(iv)両モデル群においてモデル規模の拡大よりも訓練データ量の増加が遥かに大きな効果をもたらすこと。これらの知見は、ベンチマーク間および評価指標間で強い一貫性によって検証されている。我々のオープンソース公開により、再現性のある体制考慮型の時系列予測評価が可能となった。
English
Time series forecasting is critical across finance, healthcare, and cloud computing, yet progress is constrained by a fundamental bottleneck: the scarcity of large-scale, high-quality benchmarks. To address this gap, we introduce QuitoBench, a regime-balanced benchmark for time series forecasting with coverage across eight trendtimesseasonalitytimesforecastability (TSF) regimes, designed to capture forecasting-relevant properties rather than application-defined domain labels. The benchmark is built upon Quito, a billion-scale time series corpus of application traffic from Alipay spanning nine business domains. Benchmarking 10 models from deep learning, foundation models, and statistical baselines across 232,200 evaluation instances, we report four key findings: (i) a context-length crossover where deep learning models lead at short context (L=96) but foundation models dominate at long context (L ge 576); (ii) forecastability is the dominant difficulty driver, producing a 3.64 times MAE gap across regimes; (iii) deep learning models match or surpass foundation models at 59 times fewer parameters; and (iv) scaling the amount of training data provides substantially greater benefit than scaling model size for both model families. These findings are validated by strong cross-benchmark and cross-metric consistency. Our open-source release enables reproducible, regime-aware evaluation for time series forecasting research.
PDF252April 3, 2026