ChatPaper.aiChatPaper

트랜스포머는 왜 인-컨텍스트 시계열 예측에 실패하는가?

Why Do Transformers Fail to Forecast Time Series In-Context?

October 10, 2025
저자: Yufa Zhou, Yixiao Wang, Surbhi Goel, Anru R. Zhang
cs.AI

초록

시계열 예측(Time Series Forecasting, TSF)은 최근 대규모 언어 모델(Large Language Models, LLMs)을 활용한 상당한 노력에도 불구하고, 여전히 기계 학습 분야에서 해결되지 않은 어려운 문제로 남아 있습니다. 이러한 LLMs는 주로 Transformer 아키텍처에 의존하고 있으나, 실험적 증거는 강력한 Transformer 모델조차도 TSF 작업에서 훨씬 단순한 모델(예: 선형 모델)을 능가하지 못하는 경우가 많음을 일관되게 보여줍니다. 그러나 이러한 현상에 대한 엄밀한 이론적 이해는 여전히 제한적입니다. 본 논문에서는 In-Context Learning (ICL) 이론의 관점을 통해 TSF에 대한 Transformer의 한계를 이론적으로 분석합니다. 구체적으로, AR(p) 데이터 하에서 다음과 같은 결과를 도출합니다: (1) 선형 자기 주의(Linear Self-Attention, LSA) 모델은 컨텍스트 내 예측에서 기존의 선형 모델보다 낮은 예상 평균 제곱 오차(Mean Squared Error, MSE)를 달성할 수 없으며, (2) 컨텍스트 길이가 무한대로 접근함에 따라 LSA는 점근적으로 최적의 선형 예측자를 복원하고, (3) Chain-of-Thought (CoT) 스타일 추론 하에서 예측은 기하급수적으로 평균값으로 수렴합니다. 이러한 결과는 신중하게 설계된 실험을 통해 실증적으로 검증되었습니다. 우리의 이론은 이전에 충분히 탐구되지 않았던 여러 현상에 대한 통찰을 제공할 뿐만 아니라, 보다 효과적인 예측 아키텍처 설계를 위한 실용적인 지침을 제시합니다. 본 연구가 TSF의 근본적인 이론적 한계를 재고하고, 더 깊은 검토 없이 점점 더 복잡해지는 아키텍처의 직접적인 적용을 비판적으로 평가하는 데 있어 연구 커뮤니티 전반에 자극을 줄 수 있기를 바랍니다.
English
Time series forecasting (TSF) remains a challenging and largely unsolved problem in machine learning, despite significant recent efforts leveraging Large Language Models (LLMs), which predominantly rely on Transformer architectures. Empirical evidence consistently shows that even powerful Transformers often fail to outperform much simpler models, e.g., linear models, on TSF tasks; however, a rigorous theoretical understanding of this phenomenon remains limited. In this paper, we provide a theoretical analysis of Transformers' limitations for TSF through the lens of In-Context Learning (ICL) theory. Specifically, under AR(p) data, we establish that: (1) Linear Self-Attention (LSA) models cannot achieve lower expected MSE than classical linear models for in-context forecasting; (2) as the context length approaches to infinity, LSA asymptotically recovers the optimal linear predictor; and (3) under Chain-of-Thought (CoT) style inference, predictions collapse to the mean exponentially. We empirically validate these findings through carefully designed experiments. Our theory not only sheds light on several previously underexplored phenomena but also offers practical insights for designing more effective forecasting architectures. We hope our work encourages the broader research community to revisit the fundamental theoretical limitations of TSF and to critically evaluate the direct application of increasingly sophisticated architectures without deeper scrutiny.
PDF12October 15, 2025