Waarom falen Transformers bij het in-context voorspellen van tijdreeksen?

Samenvatting

Tijdreeksvoorspelling (Time Series Forecasting, TSF) blijft een uitdagend en grotendeels onopgelost probleem in machine learning, ondanks recente inspanningen waarbij gebruik wordt gemaakt van Large Language Models (LLMs), die voornamelijk vertrouwen op Transformer-architecturen. Empirisch bewijs toont consistent aan dat zelfs krachtige Transformers vaak niet beter presteren dan veel eenvoudigere modellen, zoals lineaire modellen, bij TSF-taken; een grondig theoretisch begrip van dit fenomeen blijft echter beperkt. In dit artikel bieden we een theoretische analyse van de beperkingen van Transformers voor TSF vanuit het perspectief van In-Context Learning (ICL)-theorie. Specifiek, onder AR(p)-data, stellen we vast dat: (1) Lineaire Self-Attention (LSA)-modellen geen lagere verwachte MSE kunnen bereiken dan klassieke lineaire modellen voor in-context voorspelling; (2) naarmate de contextlengte naar oneindig nadert, benadert LSA asymptotisch de optimale lineaire voorspeller; en (3) onder Chain-of-Thought (CoT)-stijl inferentie storten voorspellingen exponentieel in naar het gemiddelde. We valideren deze bevindingen empirisch via zorgvuldig ontworpen experimenten. Onze theorie werpt niet alleen licht op verschillende eerder onderbelichte fenomenen, maar biedt ook praktische inzichten voor het ontwerpen van effectievere voorspellingsarchitecturen. We hopen dat ons werk het bredere onderzoeksgemeenschap aanmoedigt om de fundamentele theoretische beperkingen van TSF opnieuw te bekijken en de directe toepassing van steeds complexere architecturen kritisch te evalueren zonder diepgaand onderzoek.

English

Time series forecasting (TSF) remains a challenging and largely unsolved problem in machine learning, despite significant recent efforts leveraging Large Language Models (LLMs), which predominantly rely on Transformer architectures. Empirical evidence consistently shows that even powerful Transformers often fail to outperform much simpler models, e.g., linear models, on TSF tasks; however, a rigorous theoretical understanding of this phenomenon remains limited. In this paper, we provide a theoretical analysis of Transformers' limitations for TSF through the lens of In-Context Learning (ICL) theory. Specifically, under AR(p) data, we establish that: (1) Linear Self-Attention (LSA) models cannot achieve lower expected MSE than classical linear models for in-context forecasting; (2) as the context length approaches to infinity, LSA asymptotically recovers the optimal linear predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions collapse to the mean exponentially. We empirically validate these findings through carefully designed experiments. Our theory not only sheds light on several previously underexplored phenomena but also offers practical insights for designing more effective forecasting architectures. We hope our work encourages the broader research community to revisit the fundamental theoretical limitations of TSF and to critically evaluate the direct application of increasingly sophisticated architectures without deeper scrutiny.

Waarom falen Transformers bij het in-context voorspellen van tijdreeksen?

Why Do Transformers Fail to Forecast Time Series In-Context?

Samenvatting

Support