エラーフリー線形注意はフリーミール:連続時間ダイナミクスからの厳密解
Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics
December 14, 2025
著者: Jingdi Lei, Di Zhang, Soujanya Poria
cs.AI
要旨
線形時間注意機構と状態空間モデル(SSM)は、ソフトマックス注意を用いる長文脈言語モデルにおける二次コストのボトルネック解決が期待されている。本論文では、数値的に安定し、完全並列化可能で、デルタ則を一般化した定式化である誤差ゼロ線形注意(EFLA)を提案する。具体的には、オンライン学習の更新を連続時間動的システムとして定式化し、その厳密解が達成可能であるだけでなく、線形時間かつ完全並列で計算可能であることを証明する。動的システム行列のランク1構造を活用することで、実質的に無限次ルンゲ・クッタ法に対応する厳密な閉形式解を直接導出する。この注意機構は理論上誤差蓄積がなく、連続的な動的特性を完全に捉えつつ線形時間計算量を維持する。一連の詳細な実験を通じて、EFLAがノイズの多い環境下でも頑健な性能を発揮し、追加パラメータを導入することなくDeltaNetを上回る低い言語モデリングパープレキシティと優れた下流タスク性能を達成することを示す。本研究は高精度でスケーラブルな線形時間注意モデル構築の新たな理論的基盤を提供する。
English
Linear-time attention and State Space Models (SSMs) promise to solve the quadratic cost bottleneck in long-context language models employing softmax attention. We introduce Error-Free Linear Attention (EFLA), a numerically stable, fully parallelism and generalized formulation of the delta rule. Specifically, we formulate the online learning update as a continuous-time dynamical system and prove that its exact solution is not only attainable but also computable in linear time with full parallelism. By leveraging the rank-1 structure of the dynamics matrix, we directly derive the exact closed-form solution effectively corresponding to the infinite-order Runge-Kutta method. This attention mechanism is theoretically free from error accumulation, perfectly capturing the continuous dynamics while preserving the linear-time complexity. Through an extensive suite of experiments, we show that EFLA enables robust performance in noisy environments, achieving lower language modeling perplexity and superior downstream benchmark performance than DeltaNet without introducing additional parameters. Our work provides a new theoretical foundation for building high-fidelity, scalable linear-time attention models.