Por Que os Transformers Falham na Previsão de Séries Temporais In-Context?

Resumo

A previsão de séries temporais (TSF) continua sendo um problema desafiador e em grande parte não resolvido no aprendizado de máquina, apesar dos esforços recentes significativos que utilizam Modelos de Linguagem de Grande Escala (LLMs), que predominantemente dependem de arquiteturas Transformer. Evidências empíricas mostram consistentemente que mesmo Transformers poderosos frequentemente falham em superar modelos muito mais simples, por exemplo, modelos lineares, em tarefas de TSF; no entanto, uma compreensão teórica rigorosa desse fenômeno ainda é limitada. Neste artigo, fornecemos uma análise teórica das limitações dos Transformers para TSF através da lente da teoria de Aprendizado em Contexto (ICL). Especificamente, sob dados AR(p), estabelecemos que: (1) Modelos de Atenção Linear (LSA) não podem alcançar um Erro Quadrático Médio (MSE) esperado menor do que modelos lineares clássicos para previsão em contexto; (2) à medida que o comprimento do contexto se aproxima do infinito, o LSA recupera assintoticamente o preditor linear ótimo; e (3) sob inferência no estilo Cadeia de Pensamento (CoT), as previsões colapsam para a média exponencialmente. Validamos empiricamente essas descobertas por meio de experimentos cuidadosamente projetados. Nossa teoria não apenas esclarece vários fenômenos anteriormente pouco explorados, mas também oferece insights práticos para projetar arquiteturas de previsão mais eficazes. Esperamos que nosso trabalho incentive a comunidade de pesquisa mais ampla a revisitar as limitações teóricas fundamentais da TSF e a avaliar criticamente a aplicação direta de arquiteturas cada vez mais sofisticadas sem um escrutínio mais profundo.

English

Time series forecasting (TSF) remains a challenging and largely unsolved problem in machine learning, despite significant recent efforts leveraging Large Language Models (LLMs), which predominantly rely on Transformer architectures. Empirical evidence consistently shows that even powerful Transformers often fail to outperform much simpler models, e.g., linear models, on TSF tasks; however, a rigorous theoretical understanding of this phenomenon remains limited. In this paper, we provide a theoretical analysis of Transformers' limitations for TSF through the lens of In-Context Learning (ICL) theory. Specifically, under AR(p) data, we establish that: (1) Linear Self-Attention (LSA) models cannot achieve lower expected MSE than classical linear models for in-context forecasting; (2) as the context length approaches to infinity, LSA asymptotically recovers the optimal linear predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions collapse to the mean exponentially. We empirically validate these findings through carefully designed experiments. Our theory not only sheds light on several previously underexplored phenomena but also offers practical insights for designing more effective forecasting architectures. We hope our work encourages the broader research community to revisit the fundamental theoretical limitations of TSF and to critically evaluate the direct application of increasingly sophisticated architectures without deeper scrutiny.

Por Que os Transformers Falham na Previsão de Séries Temporais In-Context?

Why Do Transformers Fail to Forecast Time Series In-Context?

Resumo

Support