QuitoBench: Un Benchmark Abierto de Pronóstico de Series Temporales de Alta Calidad

Resumen

La predicción de series temporales es fundamental en finanzas, atención médica y computación en la nube, sin embargo, el progreso está limitado por un cuello de botella fundamental: la escasez de puntos de referencia a gran escala y de alta calidad. Para abordar esta brecha, presentamos QuitoBench, un punto de referencia equilibrado por régimen para la predicción de series temporales con cobertura en ocho regímenes de tendencia-estacionalidad-previsibilidad (TSF), diseñado para capturar propiedades relevantes para la predicción en lugar de etiquetas de dominio definidas por la aplicación. El benchmark se construye sobre Quito, un corpus de series temporales a escala de mil millones de registros de tráfico de aplicaciones de Alipay que abarca nueve dominios comerciales. Evaluando 10 modelos de aprendizaje profundo, modelos fundacionales y líneas base estadísticas en 232.200 instancias de evaluación, reportamos cuatro hallazgos clave: (i) un cruce de longitud de contexto donde los modelos de aprendizaje profundo lideran en contextos cortos (L=96) pero los modelos fundacionales dominan en contextos largos (L ≥ 576); (ii) la previsibilidad es el principal factor de dificultad, produciendo una brecha de MAE 3,64 veces mayor entre regímenes; (iii) los modelos de aprendizaje profundo igualan o superan a los modelos fundacionales con 59 veces menos parámetros; y (iv) escalar la cantidad de datos de entrenamiento proporciona un benef sustancialmente mayor que escalar el tamaño del modelo para ambas familias de modelos. Estos hallazgos están validados por una fuerte consistencia cross-benchmark y cross-métrica. Nuestra publicación de código abierto permite una evaluación reproducible y consciente del régimen para la investigación en predicción de series temporales.

English

Time series forecasting is critical across finance, healthcare, and cloud computing, yet progress is constrained by a fundamental bottleneck: the scarcity of large-scale, high-quality benchmarks. To address this gap, we introduce QuitoBench, a regime-balanced benchmark for time series forecasting with coverage across eight trendtimesseasonalitytimesforecastability (TSF) regimes, designed to capture forecasting-relevant properties rather than application-defined domain labels. The benchmark is built upon Quito, a billion-scale time series corpus of application traffic from Alipay spanning nine business domains. Benchmarking 10 models from deep learning, foundation models, and statistical baselines across 232,200 evaluation instances, we report four key findings: (i) a context-length crossover where deep learning models lead at short context (L=96) but foundation models dominate at long context (L ge 576); (ii) forecastability is the dominant difficulty driver, producing a 3.64 times MAE gap across regimes; (iii) deep learning models match or surpass foundation models at 59 times fewer parameters; and (iv) scaling the amount of training data provides substantially greater benefit than scaling model size for both model families. These findings are validated by strong cross-benchmark and cross-metric consistency. Our open-source release enables reproducible, regime-aware evaluation for time series forecasting research.

QuitoBench: Un Benchmark Abierto de Pronóstico de Series Temporales de Alta Calidad

QuitoBench: A High-Quality Open Time Series Forecasting Benchmark

Resumen

Support