Por Que os Transformers Falham na Previsão de Séries Temporais In-Context?
Why Do Transformers Fail to Forecast Time Series In-Context?
October 10, 2025
Autores: Yufa Zhou, Yixiao Wang, Surbhi Goel, Anru R. Zhang
cs.AI
Resumo
A previsão de séries temporais (TSF) continua sendo um problema desafiador e em grande parte não resolvido no aprendizado de máquina, apesar dos esforços recentes significativos que utilizam Modelos de Linguagem de Grande Escala (LLMs), que predominantemente dependem de arquiteturas Transformer. Evidências empíricas mostram consistentemente que mesmo Transformers poderosos frequentemente falham em superar modelos muito mais simples, por exemplo, modelos lineares, em tarefas de TSF; no entanto, uma compreensão teórica rigorosa desse fenômeno ainda é limitada. Neste artigo, fornecemos uma análise teórica das limitações dos Transformers para TSF através da lente da teoria de Aprendizado em Contexto (ICL). Especificamente, sob dados AR(p), estabelecemos que: (1) Modelos de Atenção Linear (LSA) não podem alcançar um Erro Quadrático Médio (MSE) esperado menor do que modelos lineares clássicos para previsão em contexto; (2) à medida que o comprimento do contexto se aproxima do infinito, o LSA recupera assintoticamente o preditor linear ótimo; e (3) sob inferência no estilo Cadeia de Pensamento (CoT), as previsões colapsam para a média exponencialmente. Validamos empiricamente essas descobertas por meio de experimentos cuidadosamente projetados. Nossa teoria não apenas esclarece vários fenômenos anteriormente pouco explorados, mas também oferece insights práticos para projetar arquiteturas de previsão mais eficazes. Esperamos que nosso trabalho incentive a comunidade de pesquisa mais ampla a revisitar as limitações teóricas fundamentais da TSF e a avaliar criticamente a aplicação direta de arquiteturas cada vez mais sofisticadas sem um escrutínio mais profundo.
English
Time series forecasting (TSF) remains a challenging and largely unsolved
problem in machine learning, despite significant recent efforts leveraging
Large Language Models (LLMs), which predominantly rely on Transformer
architectures. Empirical evidence consistently shows that even powerful
Transformers often fail to outperform much simpler models, e.g., linear models,
on TSF tasks; however, a rigorous theoretical understanding of this phenomenon
remains limited. In this paper, we provide a theoretical analysis of
Transformers' limitations for TSF through the lens of In-Context Learning (ICL)
theory. Specifically, under AR(p) data, we establish that: (1) Linear
Self-Attention (LSA) models cannot achieve lower expected MSE than
classical linear models for in-context forecasting; (2) as the context length
approaches to infinity, LSA asymptotically recovers the optimal linear
predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions
collapse to the mean exponentially. We empirically validate these findings
through carefully designed experiments. Our theory not only sheds light on
several previously underexplored phenomena but also offers practical insights
for designing more effective forecasting architectures. We hope our work
encourages the broader research community to revisit the fundamental
theoretical limitations of TSF and to critically evaluate the direct
application of increasingly sophisticated architectures without deeper
scrutiny.