ChatPaper.aiChatPaper

なぜTransformerは時系列予測において文脈内で失敗するのか?

Why Do Transformers Fail to Forecast Time Series In-Context?

October 10, 2025
著者: Yufa Zhou, Yixiao Wang, Surbhi Goel, Anru R. Zhang
cs.AI

要旨

時系列予測(TSF)は、大規模言語モデル(LLM)を活用した最近の多大な努力にもかかわらず、機械学習において依然として困難で未解決の問題であり続けています。これらのLLMは主にTransformerアーキテクチャに依存していますが、実証的な証拠は一貫して、強力なTransformerでさえも、TSFタスクにおいてはるかに単純なモデル(例えば線形モデル)を凌駕できないことを示しています。しかし、この現象に対する厳密な理論的理解は依然として限られています。本論文では、In-Context Learning(ICL)理論の観点から、TSFにおけるTransformerの限界について理論的分析を提供します。具体的には、AR(p)データの下で、(1) 線形自己注意(LSA)モデルは、コンテキスト内予測において古典的な線形モデルよりも低い期待MSEを達成できないこと、(2) コンテキスト長が無限大に近づくにつれて、LSAは最適な線形予測子を漸近的に回復すること、(3) Chain-of-Thought(CoT)スタイルの推論の下では、予測が指数関数的に平均値に収束することを示します。これらの発見を、慎重に設計された実験を通じて実証的に検証します。我々の理論は、これまで十分に探求されていなかったいくつかの現象に光を当てるだけでなく、より効果的な予測アーキテクチャを設計するための実践的な洞察も提供します。我々の研究が、TSFの基本的な理論的限界を再検討し、より洗練されたアーキテクチャの直接的な適用を深く検証することなく批判的に評価することを、広範な研究コミュニティに促すことを願っています。
English
Time series forecasting (TSF) remains a challenging and largely unsolved problem in machine learning, despite significant recent efforts leveraging Large Language Models (LLMs), which predominantly rely on Transformer architectures. Empirical evidence consistently shows that even powerful Transformers often fail to outperform much simpler models, e.g., linear models, on TSF tasks; however, a rigorous theoretical understanding of this phenomenon remains limited. In this paper, we provide a theoretical analysis of Transformers' limitations for TSF through the lens of In-Context Learning (ICL) theory. Specifically, under AR(p) data, we establish that: (1) Linear Self-Attention (LSA) models cannot achieve lower expected MSE than classical linear models for in-context forecasting; (2) as the context length approaches to infinity, LSA asymptotically recovers the optimal linear predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions collapse to the mean exponentially. We empirically validate these findings through carefully designed experiments. Our theory not only sheds light on several previously underexplored phenomena but also offers practical insights for designing more effective forecasting architectures. We hope our work encourages the broader research community to revisit the fundamental theoretical limitations of TSF and to critically evaluate the direct application of increasingly sophisticated architectures without deeper scrutiny.
PDF12October 15, 2025