ゲーテッド・デルタ・ネットワーク:デルタ・ルールを用いたMamba2の改善
Gated Delta Networks: Improving Mamba2 with Delta Rule
December 9, 2024
著者: Songlin Yang, Jan Kautz, Ali Hatamizadeh
cs.AI
要旨
リニアトランスフォーマーは、標準のトランスフォーマーに対する効率的な代替手段として注目されていますが、その検索および長い文脈のタスクにおけるパフォーマンスは限定されています。これらの制限に対処するために、最近の研究では、適応的メモリ制御のためのゲーティングと正確なメモリ修正のためのデルタ更新ルールという2つの異なるメカニズムが探求されています。私たちは、これらのメカニズムが補完的であることを観察しています:ゲーティングは迅速なメモリ消去を可能にし、デルタルールはターゲットされた更新を容易にします。この洞察を基に、私たちはゲーティングデルタルールを導入し、現代のハードウェアに最適化された並列トレーニングアルゴリズムを開発します。提案されたアーキテクチャであるゲーティングデルタネットは、言語モデリング、常識的推論、文脈内検索、長さの外挿、および長い文脈の理解など、複数のベンチマークで、Mamba2やDeltaNetなどの既存のモデルを常に上回っています。さらに、ゲーティングデルタネットレイヤーとスライディングウィンドウアテンションまたはMamba2レイヤーを組み合わせたハイブリッドアーキテクチャを開発することで、トレーニング効率の向上と優れたタスクパフォーマンスの両方を達成しています。
English
Linear Transformers have gained attention as efficient alternatives to
standard Transformers, but their performance in retrieval and long-context
tasks has been limited. To address these limitations, recent work has explored
two distinct mechanisms: gating for adaptive memory control and the delta
update rule for precise memory modifications. We observe that these mechanisms
are complementary: gating enables rapid memory erasure while the delta rule
facilitates targeted updates. Building on this insight, we introduce the gated
delta rule and develop a parallel training algorithm optimized for modern
hardware. Our proposed architecture, Gated DeltaNet, consistently surpasses
existing models like Mamba2 and DeltaNet across multiple benchmarks, including
language modeling, common-sense reasoning, in-context retrieval, length
extrapolation, and long-context understanding. We further enhance performance
by developing hybrid architectures that combine Gated DeltaNet layers with
sliding window attention or Mamba2 layers, achieving both improved training
efficiency and superior task performance.Summary
AI-Generated Summary