Gated DeltaNet-2: Entkopplung von Löschen und Schreiben in linearer Aufmerksamkeit

Zusammenfassung

Lineare Aufmerksamkeit ersetzt den unbegrenzten Cache der Softmax-Aufmerksamkeit durch einen rekurrenten Zustand fester Größe, wodurch das Sequenzmischen auf lineare Zeit und das Dekodieren auf konstanten Speicher reduziert wird. Der schwierige Teil ist nicht nur, was vergessen werden soll, sondern wie dieser komprimierte Speicher bearbeitet werden kann, ohne bestehende Assoziationen zu stören. Delta-Regel-Modelle subtrahieren den aktuellen Lesevorgang, bevor ein neuer Wert geschrieben wird, und Kimi Delta Attention (KDA) verschärft das Vergessen mit kanalweisem Zerfall. Aber die aktive Bearbeitung verwendet immer noch ein einzelnes skalares Gate, um zwei verschiedene Dinge zu steuern: wie viel alter Inhalt auf der Schlüsselseite gelöscht werden soll und wie viel neuer Inhalt auf der Wertseite festgeschrieben werden soll. Wir stellen Gated DeltaNet-2 vor, das sowohl Gated DeltaNet als auch KDA verallgemeinert, indem es adaptives Vergessen und kanalweisen Zerfall erbt, während es deren gemeinsame Einschränkung, die skalare Verknüpfung zwischen Löschen und Schreiben, behebt. Gated Delta Rule-2 trennt diese Rollen mit einem kanalweisen Lösch-Gate b_t und einem kanalweisen Schreib-Gate w_t, was auf KDA reduziert wird, wenn beide Gates auf denselben Skalar zusammenfallen, und auf Gated DeltaNet, wenn auch der Zerfall zusammenfällt. Wir leiten eine Sichtweise der schnellen Gewichtsaktualisierung ab, einen chunkweisen WY-Algorithmus mit kanalweisem Zerfall, der in asymmetrische Löschfaktoren absorbiert wird, und einen gatebewussten Rückwärtsdurchlauf, der ein effizientes paralleles Training bewahrt. Mit 1,3 Milliarden Parametern, trainiert auf 100 Milliarden FineWeb-Edu-Tokens, erzielt Gated DeltaNet-2 die insgesamt stärksten Ergebnisse unter den Varianten von Mamba-2, Gated DeltaNet, KDA und Mamba-3 in den Bereichen Sprachmodellierung, Common-Sense-Schlussfolgern und Informationsabruf. Sein Vorteil zeigt sich am deutlichsten bei den Long-Context-RULER-Nadel-im-Heuhaufen-Benchmarks, wo es die evaluierte Multi-Key-Retrieval-Einstellung verbessert und sowohl in rekurrenten als auch hybriden Einstellungen stark bleibt. Der Code ist verfügbar unter https://github.com/NVlabs/GatedDeltaNet-2.

English

Linear attention replaces the unbounded cache of softmax attention with a fixed-size recurrent state, reducing sequence mixing to linear time and decoding to constant memory. The hard part is not just what to forget, but how to edit this compressed memory without scrambling existing associations. Delta-rule models subtract the current read before writing a new value, and Kimi Delta Attention (KDA) sharpens forgetting with channel-wise decay. But the active edit still uses a single scalar gate to control two different things: how much old content to erase on the key side and how much new content to commit on the value side. We introduce Gated DeltaNet-2, which generalizes both Gated DeltaNet and KDA by inheriting adaptive forgetting and channel-wise decay while addressing their shared limitation, the scalar tie between erasing and writing. Gated Delta Rule-2 separates these roles with a channel-wise erase gate b_t and a channel-wise write gate w_t, reducing to KDA when both gates collapse to the same scalar and to Gated DeltaNet when the decay also collapses. We derive a fast-weight update view, a chunkwise WY algorithm with channel-wise decay absorbed into asymmetric erase factors, and a gate-aware backward pass that preserves efficient parallel training. At 1.3B parameters trained on 100B FineWeb-Edu tokens, Gated DeltaNet-2 achieves the strongest overall results among Mamba-2, Gated DeltaNet, KDA, and Mamba-3 variants across language modeling, commonsense reasoning, and retrieval. Its advantage is most pronounced on long-context RULER needle-in-a-haystack benchmarks, where it improves the evaluated multi-key retrieval setting and remains strong in both recurrent and hybrid settings. Code is available at https://github.com/NVlabs/GatedDeltaNet-2.