Кито-Бенч: Высококачественный открытый эталонный набор данных для прогнозирования временных рядов
QuitoBench: A High-Quality Open Time Series Forecasting Benchmark
March 27, 2026
Авторы: Siqiao Xue, Zhaoyang Zhu, Wei Zhang, Rongyao Cai, Rui Wang, Yixiang Mu, Fan Zhou, Jianguo Li, Peng Di, Hang Yu
cs.AI
Аннотация
Прогнозирование временных рядов играет ключевую роль в финансах, здравоохранении и облачных вычислениях, однако прогресс в этой области сдерживается фундаментальным ограничением — нехваткой крупномасштабных, качественных бенчмарков. Для решения этой проблемы мы представляем QuitoBench, режимно-сбалансированный бенчмарк для прогнозирования временных рядов, охватывающий восемь режимов трендов/сезонности/прогнозируемости (TSF), который предназначен для отражения свойств, релевантных для прогнозирования, а не доменных меток, определенных приложениями. Бенчмарк построен на основе Quito — корпуса временных рядов миллиардного масштаба, содержащего данные о трафике приложений Alipay из девяти бизнес-доменов. Протестировав 10 моделей (глубокого обучения, фоновых моделей и статистических базовых методов) на 232 200 примерах оценки, мы получили четыре ключевых результата: (i) перекресток длины контекста, где модели глубокого обучения лидируют при коротком контексте (L=96), а фоновые модели доминируют при длинном контексте (L ≥ 576); (ii) прогнозируемость является основным фактором сложности, создающим 3,64-кратный разброс MAE между режимами; (iii) модели глубокого обучения соответствуют или превосходят фоновые модели, имея в 59 раз меньше параметров; и (iv) увеличение объема обучающих данных дает существенно больше преимуществ, чем масштабирование размера модели, для обоих семейств моделей. Эти выводы подтверждаются сильной перекрестной согласованностью между бенчмарками и метриками. Наш открытый выпуск обеспечивает воспроизводимую, режимно-ориентированную оценку для исследований в области прогнозирования временных рядов.
English
Time series forecasting is critical across finance, healthcare, and cloud computing, yet progress is constrained by a fundamental bottleneck: the scarcity of large-scale, high-quality benchmarks. To address this gap, we introduce QuitoBench, a regime-balanced benchmark for time series forecasting with coverage across eight trendtimesseasonalitytimesforecastability (TSF) regimes, designed to capture forecasting-relevant properties rather than application-defined domain labels. The benchmark is built upon Quito, a billion-scale time series corpus of application traffic from Alipay spanning nine business domains. Benchmarking 10 models from deep learning, foundation models, and statistical baselines across 232,200 evaluation instances, we report four key findings: (i) a context-length crossover where deep learning models lead at short context (L=96) but foundation models dominate at long context (L ge 576); (ii) forecastability is the dominant difficulty driver, producing a 3.64 times MAE gap across regimes; (iii) deep learning models match or surpass foundation models at 59 times fewer parameters; and (iv) scaling the amount of training data provides substantially greater benefit than scaling model size for both model families. These findings are validated by strong cross-benchmark and cross-metric consistency. Our open-source release enables reproducible, regime-aware evaluation for time series forecasting research.