퀴토벤치: 고품질 오픈 시계열 예측 벤치마크
QuitoBench: A High-Quality Open Time Series Forecasting Benchmark
March 27, 2026
저자: Siqiao Xue, Zhaoyang Zhu, Wei Zhang, Rongyao Cai, Rui Wang, Yixiang Mu, Fan Zhou, Jianguo Li, Peng Di, Hang Yu
cs.AI
초록
시계열 예측은 금융, 의료, 클라우드 컴퓨팅 등 다양한 분야에서 중요하지만, 대규모 고품질 벤치마크의 부족이라는 근본적인 한계로 발전이 제한되고 있습니다. 이러한 격차를 해결하기 위해 우리는 응용 프로그램 정의 도메인 라벨이 아닌 예측 관련 속성을 포착하도록 설계된 8가지 추세-계절성-예측 가능성(TSF) 체계를 아우르는 시계열 예측용 체계 균형 벤치마크인 QuitoBench를 소개합니다. 이 벤치마크는 Alipay의 9개 비즈니스 도메인에 걸친 애플리케이션 트래픽으로 구성된 10억 규모 시계열 코퍼스인 Quito를 기반으로 구축되었습니다. 딥러닝, 파운데이션 모델, 통계적 베이스라인 등 10개 모델을 232,200개 평가 인스턴스에 걸쳐 벤치마킹한 결과, 다음과 같은 네 가지 주요 발견을 보고합니다: (i) 딥러닝 모델은 짧은 컨텍스트(L=96)에서 우세하지만 파운데이션 모델은 긴 컨텍스트(L ≥ 576)에서 우월한 성능을 보이는 컨텍스트 길이 교차점, (ii) 예측 가능성이 가장 지배적인 난이도 요인으로 체계 간 3.64배 MAE 격차를 발생시킴, (iii) 딥러닝 모델이 파운데이션 모델 대비 59배 적은 매개변수로 동등하거나 더 나은 성능을 달성함, (iv) 두 모델 패밀리 모두에서 모델 크기를 확장하는 것보다 훈련 데이터 양을 확장하는 것이 훨씬 큰 이점을 제공함. 이러한 발견은 강력한 벤치마크 간 및 메트릭 간 일관성을 통해 검증되었습니다. 우리의 오픈소스 공개를 통해 시계열 예측 연구에 재현 가능하고 체계 인식 평가가 가능해졌습니다.
English
Time series forecasting is critical across finance, healthcare, and cloud computing, yet progress is constrained by a fundamental bottleneck: the scarcity of large-scale, high-quality benchmarks. To address this gap, we introduce QuitoBench, a regime-balanced benchmark for time series forecasting with coverage across eight trendtimesseasonalitytimesforecastability (TSF) regimes, designed to capture forecasting-relevant properties rather than application-defined domain labels. The benchmark is built upon Quito, a billion-scale time series corpus of application traffic from Alipay spanning nine business domains. Benchmarking 10 models from deep learning, foundation models, and statistical baselines across 232,200 evaluation instances, we report four key findings: (i) a context-length crossover where deep learning models lead at short context (L=96) but foundation models dominate at long context (L ge 576); (ii) forecastability is the dominant difficulty driver, producing a 3.64 times MAE gap across regimes; (iii) deep learning models match or surpass foundation models at 59 times fewer parameters; and (iv) scaling the amount of training data provides substantially greater benefit than scaling model size for both model families. These findings are validated by strong cross-benchmark and cross-metric consistency. Our open-source release enables reproducible, regime-aware evaluation for time series forecasting research.