Waarom falen Transformers bij het in-context voorspellen van tijdreeksen?
Why Do Transformers Fail to Forecast Time Series In-Context?
October 10, 2025
Auteurs: Yufa Zhou, Yixiao Wang, Surbhi Goel, Anru R. Zhang
cs.AI
Samenvatting
Tijdreeksvoorspelling (Time Series Forecasting, TSF) blijft een uitdagend en grotendeels onopgelost probleem in machine learning, ondanks recente inspanningen waarbij gebruik wordt gemaakt van Large Language Models (LLMs), die voornamelijk vertrouwen op Transformer-architecturen. Empirisch bewijs toont consistent aan dat zelfs krachtige Transformers vaak niet beter presteren dan veel eenvoudigere modellen, zoals lineaire modellen, bij TSF-taken; een grondig theoretisch begrip van dit fenomeen blijft echter beperkt. In dit artikel bieden we een theoretische analyse van de beperkingen van Transformers voor TSF vanuit het perspectief van In-Context Learning (ICL)-theorie. Specifiek, onder AR(p)-data, stellen we vast dat: (1) Lineaire Self-Attention (LSA)-modellen geen lagere verwachte MSE kunnen bereiken dan klassieke lineaire modellen voor in-context voorspelling; (2) naarmate de contextlengte naar oneindig nadert, benadert LSA asymptotisch de optimale lineaire voorspeller; en (3) onder Chain-of-Thought (CoT)-stijl inferentie storten voorspellingen exponentieel in naar het gemiddelde. We valideren deze bevindingen empirisch via zorgvuldig ontworpen experimenten. Onze theorie werpt niet alleen licht op verschillende eerder onderbelichte fenomenen, maar biedt ook praktische inzichten voor het ontwerpen van effectievere voorspellingsarchitecturen. We hopen dat ons werk het bredere onderzoeksgemeenschap aanmoedigt om de fundamentele theoretische beperkingen van TSF opnieuw te bekijken en de directe toepassing van steeds complexere architecturen kritisch te evalueren zonder diepgaand onderzoek.
English
Time series forecasting (TSF) remains a challenging and largely unsolved
problem in machine learning, despite significant recent efforts leveraging
Large Language Models (LLMs), which predominantly rely on Transformer
architectures. Empirical evidence consistently shows that even powerful
Transformers often fail to outperform much simpler models, e.g., linear models,
on TSF tasks; however, a rigorous theoretical understanding of this phenomenon
remains limited. In this paper, we provide a theoretical analysis of
Transformers' limitations for TSF through the lens of In-Context Learning (ICL)
theory. Specifically, under AR(p) data, we establish that: (1) Linear
Self-Attention (LSA) models cannot achieve lower expected MSE than
classical linear models for in-context forecasting; (2) as the context length
approaches to infinity, LSA asymptotically recovers the optimal linear
predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions
collapse to the mean exponentially. We empirically validate these findings
through carefully designed experiments. Our theory not only sheds light on
several previously underexplored phenomena but also offers practical insights
for designing more effective forecasting architectures. We hope our work
encourages the broader research community to revisit the fundamental
theoretical limitations of TSF and to critically evaluate the direct
application of increasingly sophisticated architectures without deeper
scrutiny.