Warum scheitern Transformer-Modelle bei der In-Kontext-Vorhersage von Zeitreihen?

papers.abstract

Zeitreihenvorhersage (Time Series Forecasting, TSF) bleibt eine herausfordernde und weitgehend ungelöste Problemstellung im Bereich des maschinellen Lernens, trotz erheblicher jüngster Bemühungen, die auf Large Language Models (LLMs) setzen, die hauptsächlich auf Transformer-Architekturen basieren. Empirische Belege zeigen konsequent, dass selbst leistungsstarke Transformer oft nicht in der Lage sind, deutlich einfachere Modelle, wie z. B. lineare Modelle, bei TSF-Aufgaben zu übertreffen; jedoch bleibt ein rigoroses theoretisches Verständnis dieses Phänomens begrenzt. In diesem Artikel liefern wir eine theoretische Analyse der Grenzen von Transformern für TSF durch die Linse der In-Context Learning (ICL)-Theorie. Konkret zeigen wir unter AR(p)-Daten, dass: (1) Lineare Self-Attention (LSA)-Modelle keinen geringeren erwarteten mittleren quadratischen Fehler (MSE) als klassische lineare Modelle für die In-Context-Vorhersage erreichen können; (2) wenn die Kontextlänge gegen unendlich strebt, sich LSA asymptotisch dem optimalen linearen Prädiktor annähert; und (3) bei Chain-of-Thought (CoT)-artiger Inferenz die Vorhersagen exponentiell zum Mittelwert kollabieren. Wir validieren diese Erkenntnisse empirisch durch sorgfältig konzipierte Experimente. Unsere Theorie beleuchtet nicht nur mehrere bisher unzureichend erforschte Phänomene, sondern bietet auch praktische Einblicke für die Gestaltung effektiverer Vorhersagearchitekturen. Wir hoffen, dass unsere Arbeit die breitere Forschungsgemeinschaft dazu anregt, die grundlegenden theoretischen Grenzen der TSF neu zu betrachten und die direkte Anwendung zunehmend komplexer Architekturen ohne tiefergehende Prüfung kritisch zu hinterfragen.

English

Time series forecasting (TSF) remains a challenging and largely unsolved problem in machine learning, despite significant recent efforts leveraging Large Language Models (LLMs), which predominantly rely on Transformer architectures. Empirical evidence consistently shows that even powerful Transformers often fail to outperform much simpler models, e.g., linear models, on TSF tasks; however, a rigorous theoretical understanding of this phenomenon remains limited. In this paper, we provide a theoretical analysis of Transformers' limitations for TSF through the lens of In-Context Learning (ICL) theory. Specifically, under AR(p) data, we establish that: (1) Linear Self-Attention (LSA) models cannot achieve lower expected MSE than classical linear models for in-context forecasting; (2) as the context length approaches to infinity, LSA asymptotically recovers the optimal linear predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions collapse to the mean exponentially. We empirically validate these findings through carefully designed experiments. Our theory not only sheds light on several previously underexplored phenomena but also offers practical insights for designing more effective forecasting architectures. We hope our work encourages the broader research community to revisit the fundamental theoretical limitations of TSF and to critically evaluate the direct application of increasingly sophisticated architectures without deeper scrutiny.

Warum scheitern Transformer-Modelle bei der In-Kontext-Vorhersage von Zeitreihen?

Why Do Transformers Fail to Forecast Time Series In-Context?

papers.abstract

Support