¿Por qué los transformadores no logran pronosticar series temporales en contexto?

Resumen

La predicción de series temporales (TSF, por sus siglas en inglés) sigue siendo un problema desafiante y en gran medida no resuelto en el aprendizaje automático, a pesar de los esfuerzos recientes significativos que aprovechan los Modelos de Lenguaje de Gran Escala (LLMs), los cuales dependen predominantemente de arquitecturas Transformer. La evidencia empírica muestra consistentemente que incluso los Transformers más potentes a menudo no superan a modelos mucho más simples, por ejemplo, modelos lineales, en tareas de TSF; sin embargo, una comprensión teórica rigurosa de este fenómeno sigue siendo limitada. En este artículo, proporcionamos un análisis teórico de las limitaciones de los Transformers para TSF a través de la lente de la teoría de Aprendizaje en Contexto (ICL, por sus siglas en inglés). Específicamente, bajo datos AR(p), establecemos que: (1) los modelos de Autoatención Lineal (LSA, por sus siglas en inglés) no pueden lograr un error cuadrático medio (MSE) esperado más bajo que los modelos lineales clásicos para la predicción en contexto; (2) a medida que la longitud del contexto tiende a infinito, LSA recupera asintóticamente el predictor lineal óptimo; y (3) bajo inferencia de estilo Cadena de Pensamiento (CoT, por sus siglas en inglés), las predicciones colapsan a la media exponencialmente. Validamos empíricamente estos hallazgos a través de experimentos cuidadosamente diseñados. Nuestra teoría no solo arroja luz sobre varios fenómenos previamente poco explorados, sino que también ofrece ideas prácticas para diseñar arquitecturas de predicción más efectivas. Esperamos que nuestro trabajo anime a la comunidad de investigación en general a revisitar las limitaciones teóricas fundamentales de TSF y a evaluar críticamente la aplicación directa de arquitecturas cada vez más sofisticadas sin un escrutinio más profundo.

English

Time series forecasting (TSF) remains a challenging and largely unsolved problem in machine learning, despite significant recent efforts leveraging Large Language Models (LLMs), which predominantly rely on Transformer architectures. Empirical evidence consistently shows that even powerful Transformers often fail to outperform much simpler models, e.g., linear models, on TSF tasks; however, a rigorous theoretical understanding of this phenomenon remains limited. In this paper, we provide a theoretical analysis of Transformers' limitations for TSF through the lens of In-Context Learning (ICL) theory. Specifically, under AR(p) data, we establish that: (1) Linear Self-Attention (LSA) models cannot achieve lower expected MSE than classical linear models for in-context forecasting; (2) as the context length approaches to infinity, LSA asymptotically recovers the optimal linear predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions collapse to the mean exponentially. We empirically validate these findings through carefully designed experiments. Our theory not only sheds light on several previously underexplored phenomena but also offers practical insights for designing more effective forecasting architectures. We hope our work encourages the broader research community to revisit the fundamental theoretical limitations of TSF and to critically evaluate the direct application of increasingly sophisticated architectures without deeper scrutiny.

¿Por qué los transformadores no logran pronosticar series temporales en contexto?

Why Do Transformers Fail to Forecast Time Series In-Context?

Resumen

Support