Gated DeltaNet-2: Ontkoppeling van Wissen en Schrijven in Lineaire Aandacht

Samenvatting

Lineaire aandacht vervangt de onbegrensde cache van softmax-aandacht door een recursieve toestand met vaste grootte, waardoor sequentiemenging wordt teruggebracht tot lineaire tijd en decoderen tot constant geheugen. Het lastige is niet alleen wat te vergeten, maar ook hoe dit gecomprimeerde geheugen te bewerken zonder bestaande associaties te verstoren. Deltaregelmodellen trekken de huidige uitlezing af voordat ze een nieuwe waarde schrijven, en Kimi Delta Attention (KDA) scherpt het vergeten aan met kanaalsgewijs verval. Maar de actieve bewerking gebruikt nog steeds een enkele scalaire poort om twee verschillende dingen te regelen: hoeveel oude inhoud te wissen aan de sleutelzijde en hoeveel nieuwe inhoud vast te leggen aan de waarde-zijde. We introduceren Gated DeltaNet-2, dat zowel Gated DeltaNet als KDA generaliseert door adaptief vergeten en kanaalsgewijs verval over te nemen, terwijl het hun gedeelde beperking aanpakt: de scalaire koppeling tussen wissen en schrijven. Gated Delta Rule-2 scheidt deze rollen met een kanaalsgewijze wisspoort \( b_t \) en een kanaalsgewijze schrijfpoort \( w_t \), en reduceert tot KDA wanneer beide poorten samenvallen tot dezelfde scalair en tot Gated DeltaNet wanneer het verval ook instort. We leiden een snelle-gewichtenupdateweergave af, een chunksgewijs WY-algoritme met kanaalsgewijs verval geabsorbeerd in asymmetrische wisfactoren, en een poortbewuste terugwaartse doorgang die efficiënte parallelle training behoudt. Met 1,3B parameters getraind op 100B FineWeb-Edu-tokens behaalt Gated DeltaNet-2 de sterkste algemene resultaten onder Mamba-2, Gated DeltaNet, KDA en Mamba-3 varianten op het gebied van taalmodellering, gezond verstand-redeenering en retrieval. Het voordeel is het meest uitgesproken op lange-context RULER speld-in-een-hooiberg benchmarks, waar het de geëvalueerde meervoudige-sleutelophaling verbetert en sterk blijft in zowel recursieve als hybride instellingen. Code is beschikbaar op https://github.com/NVlabs/GatedDeltaNet-2.

English

Linear attention replaces the unbounded cache of softmax attention with a fixed-size recurrent state, reducing sequence mixing to linear time and decoding to constant memory. The hard part is not just what to forget, but how to edit this compressed memory without scrambling existing associations. Delta-rule models subtract the current read before writing a new value, and Kimi Delta Attention (KDA) sharpens forgetting with channel-wise decay. But the active edit still uses a single scalar gate to control two different things: how much old content to erase on the key side and how much new content to commit on the value side. We introduce Gated DeltaNet-2, which generalizes both Gated DeltaNet and KDA by inheriting adaptive forgetting and channel-wise decay while addressing their shared limitation, the scalar tie between erasing and writing. Gated Delta Rule-2 separates these roles with a channel-wise erase gate b_t and a channel-wise write gate w_t, reducing to KDA when both gates collapse to the same scalar and to Gated DeltaNet when the decay also collapses. We derive a fast-weight update view, a chunkwise WY algorithm with channel-wise decay absorbed into asymmetric erase factors, and a gate-aware backward pass that preserves efficient parallel training. At 1.3B parameters trained on 100B FineWeb-Edu tokens, Gated DeltaNet-2 achieves the strongest overall results among Mamba-2, Gated DeltaNet, KDA, and Mamba-3 variants across language modeling, commonsense reasoning, and retrieval. Its advantage is most pronounced on long-context RULER needle-in-a-haystack benchmarks, where it improves the evaluated multi-key retrieval setting and remains strong in both recurrent and hybrid settings. Code is available at https://github.com/NVlabs/GatedDeltaNet-2.