¿Por qué los transformadores no logran pronosticar series temporales en contexto?
Why Do Transformers Fail to Forecast Time Series In-Context?
October 10, 2025
Autores: Yufa Zhou, Yixiao Wang, Surbhi Goel, Anru R. Zhang
cs.AI
Resumen
La predicción de series temporales (TSF, por sus siglas en inglés) sigue siendo un problema desafiante y en gran medida no resuelto en el aprendizaje automático, a pesar de los esfuerzos recientes significativos que aprovechan los Modelos de Lenguaje de Gran Escala (LLMs), los cuales dependen predominantemente de arquitecturas Transformer. La evidencia empírica muestra consistentemente que incluso los Transformers más potentes a menudo no superan a modelos mucho más simples, por ejemplo, modelos lineales, en tareas de TSF; sin embargo, una comprensión teórica rigurosa de este fenómeno sigue siendo limitada. En este artículo, proporcionamos un análisis teórico de las limitaciones de los Transformers para TSF a través de la lente de la teoría de Aprendizaje en Contexto (ICL, por sus siglas en inglés). Específicamente, bajo datos AR(p), establecemos que: (1) los modelos de Autoatención Lineal (LSA, por sus siglas en inglés) no pueden lograr un error cuadrático medio (MSE) esperado más bajo que los modelos lineales clásicos para la predicción en contexto; (2) a medida que la longitud del contexto tiende a infinito, LSA recupera asintóticamente el predictor lineal óptimo; y (3) bajo inferencia de estilo Cadena de Pensamiento (CoT, por sus siglas en inglés), las predicciones colapsan a la media exponencialmente. Validamos empíricamente estos hallazgos a través de experimentos cuidadosamente diseñados. Nuestra teoría no solo arroja luz sobre varios fenómenos previamente poco explorados, sino que también ofrece ideas prácticas para diseñar arquitecturas de predicción más efectivas. Esperamos que nuestro trabajo anime a la comunidad de investigación en general a revisitar las limitaciones teóricas fundamentales de TSF y a evaluar críticamente la aplicación directa de arquitecturas cada vez más sofisticadas sin un escrutinio más profundo.
English
Time series forecasting (TSF) remains a challenging and largely unsolved
problem in machine learning, despite significant recent efforts leveraging
Large Language Models (LLMs), which predominantly rely on Transformer
architectures. Empirical evidence consistently shows that even powerful
Transformers often fail to outperform much simpler models, e.g., linear models,
on TSF tasks; however, a rigorous theoretical understanding of this phenomenon
remains limited. In this paper, we provide a theoretical analysis of
Transformers' limitations for TSF through the lens of In-Context Learning (ICL)
theory. Specifically, under AR(p) data, we establish that: (1) Linear
Self-Attention (LSA) models cannot achieve lower expected MSE than
classical linear models for in-context forecasting; (2) as the context length
approaches to infinity, LSA asymptotically recovers the optimal linear
predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions
collapse to the mean exponentially. We empirically validate these findings
through carefully designed experiments. Our theory not only sheds light on
several previously underexplored phenomena but also offers practical insights
for designing more effective forecasting architectures. We hope our work
encourages the broader research community to revisit the fundamental
theoretical limitations of TSF and to critically evaluate the direct
application of increasingly sophisticated architectures without deeper
scrutiny.