Warum scheitern Transformer-Modelle bei der In-Kontext-Vorhersage von Zeitreihen?
Why Do Transformers Fail to Forecast Time Series In-Context?
October 10, 2025
papers.authors: Yufa Zhou, Yixiao Wang, Surbhi Goel, Anru R. Zhang
cs.AI
papers.abstract
Zeitreihenvorhersage (Time Series Forecasting, TSF) bleibt eine herausfordernde und weitgehend ungelöste Problemstellung im Bereich des maschinellen Lernens, trotz erheblicher jüngster Bemühungen, die auf Large Language Models (LLMs) setzen, die hauptsächlich auf Transformer-Architekturen basieren. Empirische Belege zeigen konsequent, dass selbst leistungsstarke Transformer oft nicht in der Lage sind, deutlich einfachere Modelle, wie z. B. lineare Modelle, bei TSF-Aufgaben zu übertreffen; jedoch bleibt ein rigoroses theoretisches Verständnis dieses Phänomens begrenzt. In diesem Artikel liefern wir eine theoretische Analyse der Grenzen von Transformern für TSF durch die Linse der In-Context Learning (ICL)-Theorie. Konkret zeigen wir unter AR(p)-Daten, dass: (1) Lineare Self-Attention (LSA)-Modelle keinen geringeren erwarteten mittleren quadratischen Fehler (MSE) als klassische lineare Modelle für die In-Context-Vorhersage erreichen können; (2) wenn die Kontextlänge gegen unendlich strebt, sich LSA asymptotisch dem optimalen linearen Prädiktor annähert; und (3) bei Chain-of-Thought (CoT)-artiger Inferenz die Vorhersagen exponentiell zum Mittelwert kollabieren. Wir validieren diese Erkenntnisse empirisch durch sorgfältig konzipierte Experimente. Unsere Theorie beleuchtet nicht nur mehrere bisher unzureichend erforschte Phänomene, sondern bietet auch praktische Einblicke für die Gestaltung effektiverer Vorhersagearchitekturen. Wir hoffen, dass unsere Arbeit die breitere Forschungsgemeinschaft dazu anregt, die grundlegenden theoretischen Grenzen der TSF neu zu betrachten und die direkte Anwendung zunehmend komplexer Architekturen ohne tiefergehende Prüfung kritisch zu hinterfragen.
English
Time series forecasting (TSF) remains a challenging and largely unsolved
problem in machine learning, despite significant recent efforts leveraging
Large Language Models (LLMs), which predominantly rely on Transformer
architectures. Empirical evidence consistently shows that even powerful
Transformers often fail to outperform much simpler models, e.g., linear models,
on TSF tasks; however, a rigorous theoretical understanding of this phenomenon
remains limited. In this paper, we provide a theoretical analysis of
Transformers' limitations for TSF through the lens of In-Context Learning (ICL)
theory. Specifically, under AR(p) data, we establish that: (1) Linear
Self-Attention (LSA) models cannot achieve lower expected MSE than
classical linear models for in-context forecasting; (2) as the context length
approaches to infinity, LSA asymptotically recovers the optimal linear
predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions
collapse to the mean exponentially. We empirically validate these findings
through carefully designed experiments. Our theory not only sheds light on
several previously underexplored phenomena but also offers practical insights
for designing more effective forecasting architectures. We hope our work
encourages the broader research community to revisit the fundamental
theoretical limitations of TSF and to critically evaluate the direct
application of increasingly sophisticated architectures without deeper
scrutiny.