ChatPaper.aiChatPaper

Gegatterte Delta-Netzwerke: Verbesserung von Mamba2 mit der Delta-Regel

Gated Delta Networks: Improving Mamba2 with Delta Rule

December 9, 2024
Autoren: Songlin Yang, Jan Kautz, Ali Hatamizadeh
cs.AI

Zusammenfassung

Lineare Transformer haben als effiziente Alternativen zu Standard-Transformern an Bedeutung gewonnen, aber ihre Leistung bei Abruf- und Langkontextaufgaben war begrenzt. Um diese Einschränkungen zu beheben, haben aktuelle Arbeiten zwei unterschiedliche Mechanismen erforscht: Gating für adaptive Speichersteuerung und die Delta-Aktualisierungsregel für präzise Speichermodifikationen. Wir stellen fest, dass diese Mechanismen sich ergänzen: Gating ermöglicht schnelles Löschen von Speicher, während die Delta-Regel gezielte Aktualisierungen erleichtert. Basierend auf dieser Erkenntnis führen wir die gegliederte Delta-Regel ein und entwickeln einen parallelen Trainingsalgorithmus, der für moderne Hardware optimiert ist. Unsere vorgeschlagene Architektur, Gated DeltaNet, übertrifft konsistent bestehende Modelle wie Mamba2 und DeltaNet in mehreren Benchmarks, einschließlich Sprachmodellierung, Common-Sense-Argumentation, In-Context-Abruf, Längenextrapolation und Langkontextverständnis. Wir verbessern die Leistung weiter, indem wir Hybridarchitekturen entwickeln, die Gated DeltaNet-Schichten mit Schiebefenster-Aufmerksamkeit oder Mamba2-Schichten kombinieren und so sowohl die Trainingsleistung als auch die Aufgabenerfüllung verbessern.
English
Linear Transformers have gained attention as efficient alternatives to standard Transformers, but their performance in retrieval and long-context tasks has been limited. To address these limitations, recent work has explored two distinct mechanisms: gating for adaptive memory control and the delta update rule for precise memory modifications. We observe that these mechanisms are complementary: gating enables rapid memory erasure while the delta rule facilitates targeted updates. Building on this insight, we introduce the gated delta rule and develop a parallel training algorithm optimized for modern hardware. Our proposed architecture, Gated DeltaNet, consistently surpasses existing models like Mamba2 and DeltaNet across multiple benchmarks, including language modeling, common-sense reasoning, in-context retrieval, length extrapolation, and long-context understanding. We further enhance performance by developing hybrid architectures that combine Gated DeltaNet layers with sliding window attention or Mamba2 layers, achieving both improved training efficiency and superior task performance.

Summary

AI-Generated Summary

PDF113December 10, 2024