ChatPaper.aiChatPaper

動的線形アテンション

Dynamic Linear Attention

June 9, 2026
著者: Xin Wang, Hui Shen, Boyuan Zheng, Xueshen Liu, Minkyoung Cho, Zhongwei Wan, Zesen Zhao, Zhuoqing Mao, Shen Yan, Mi Zhang
cs.AI

要旨

大規模言語モデル(LLM)の長いコンテキストへの拡張性は、標準的なアテンションの2次複雑性によって根本的に制約されており、そのためサブ2次コストの線形アテンション機構の採用が促進されている。長いコンテキスト下での表現能力を向上させるため、近年の手法ではメモリをマルチステート的に構成している。しかし、既存のマルチステート線形アテンション手法は、トークンの重要度の動的変化に適応できない固定の状態統合ポリシーに依存しており、重要なトークンを不可逆的に不明瞭にし、長いシーケンスにわたって深刻な誤差蓄積を引き起こす。この制限に対処するため、我々はマルチステート線形アテンションのための動的メモリモデリングフレームワークであるDLAを提案する。DLAは以下の2つを導入する。(i)情報認識型動的状態統合:トークンレベルの情報変化に基づいて状態境界を適応的に決定し、意味遷移周辺では高解像度表現を保持しつつ、安定領域では積極的に要約する。(ii)容量制限付きメモリモデリング:隣接する低情報状態を選択的に統合することで、固定サイズで時系列順の状態キャッシュを維持し、情報損失を最小限に抑えながらメモリ成長を制御する。我々はDLAを2つの異なる線形アテンションモデルで事前学習し、3カテゴリ16データセットで評価した。実験結果は、DLAが最先端手法よりも優れていることを示している。
English
The scalability of Large Language Models (LLMs) to long contexts is fundamentally constrained by the quadratic complexity of standard attention, motivating the adoption of linear attention mechanisms with sub-quadratic cost. To improve representation capacity under long contexts, recent approaches organize memory in a multi-state manner. However, existing multi-state linear attention methods rely on fixed state merging policies that cannot adapt to dynamically varying token importance, irreversibly obscuring critical tokens and causing severe error accumulation over long sequences. To address this limitation, we propose DLA, a dynamic memory modeling framework for multi-state linear attention. DLA introduces (i) Information-Aware Dynamic State Merging, which adaptively determines state boundaries based on token-level information variation, preserving high-resolution representations around semantic transitions while aggressively summarizing stable regions, and (ii) Capacity-Bounded Memory Modeling, which maintains a fixed-size, chronologically ordered state cache by selectively merging adjacent low-information states to control memory growth with minimal information loss. We pre-train DLA on two different linear attention models and evaluate on 16 datasets across three categories. Experimental results demonstrate the superiority of DLA over state-of-the-art.