Gated DeltaNet-2 : Découplage de l'effacement et de l'écriture dans l'attention linéaire

Résumé

L'attention linéaire remplace le cache non borné de l'attention softmax par un état récurrent de taille fixe, réduisant le mélange de séquences à un temps linéaire et le décodage à une mémoire constante. La difficulté ne réside pas seulement dans ce qu'il faut oublier, mais dans la manière de modifier cette mémoire compressée sans perturber les associations existantes. Les modèles à règle delta soustraient la lecture courante avant d'écrire une nouvelle valeur, et Kimi Delta Attention (KDA) affine l'oubli avec une décroissance par canal. Cependant, la modification active utilise toujours une unique porte scalaire pour contrôler deux choses différentes : la quantité de contenu ancien à effacer du côté des clés et la quantité de nouveau contenu à engager du côté des valeurs. Nous introduisons Gated DeltaNet-2, qui généralise à la fois Gated DeltaNet et KDA en héritant de l'oubli adaptatif et de la décroissance par canal, tout en palliant leur limitation commune, le couplage scalaire entre l'effacement et l'écriture. Gated Delta Rule-2 sépare ces rôles avec une porte d'effacement par canal b_t et une porte d'écriture par canal w_t, se réduisant à KDA lorsque les deux portes se confondent en un même scalaire et à Gated DeltaNet lorsque la décroissance se réduit également. Nous dérivons une vue de mise à jour des poids rapides, un algorithme WY par blocs avec décroissance par canal absorbée dans des facteurs d'effacement asymétriques, et une passe arrière sensible aux portes qui préserve un entraînement parallèle efficace. Avec 1,3 milliard de paramètres entraînés sur 100 milliards de tokens FineWeb-Edu, Gated DeltaNet-2 obtient les résultats globaux les plus solides parmi les variantes Mamba-2, Gated DeltaNet, KDA et Mamba-3 dans les domaines de la modélisation du langage, du raisonnement de sens commun et de la recherche d'information. Son avantage est le plus marqué dans les tests de type aiguille dans une botte de foin sur longue contexte RULER, où il améliore le cadre de recherche multi-clés évalué et reste performant aussi bien en configuration récurrente qu'hybride. Le code est disponible à l'adresse https://github.com/NVlabs/GatedDeltaNet-2.

English

Linear attention replaces the unbounded cache of softmax attention with a fixed-size recurrent state, reducing sequence mixing to linear time and decoding to constant memory. The hard part is not just what to forget, but how to edit this compressed memory without scrambling existing associations. Delta-rule models subtract the current read before writing a new value, and Kimi Delta Attention (KDA) sharpens forgetting with channel-wise decay. But the active edit still uses a single scalar gate to control two different things: how much old content to erase on the key side and how much new content to commit on the value side. We introduce Gated DeltaNet-2, which generalizes both Gated DeltaNet and KDA by inheriting adaptive forgetting and channel-wise decay while addressing their shared limitation, the scalar tie between erasing and writing. Gated Delta Rule-2 separates these roles with a channel-wise erase gate b_t and a channel-wise write gate w_t, reducing to KDA when both gates collapse to the same scalar and to Gated DeltaNet when the decay also collapses. We derive a fast-weight update view, a chunkwise WY algorithm with channel-wise decay absorbed into asymmetric erase factors, and a gate-aware backward pass that preserves efficient parallel training. At 1.3B parameters trained on 100B FineWeb-Edu tokens, Gated DeltaNet-2 achieves the strongest overall results among Mamba-2, Gated DeltaNet, KDA, and Mamba-3 variants across language modeling, commonsense reasoning, and retrieval. Its advantage is most pronounced on long-context RULER needle-in-a-haystack benchmarks, where it improves the evaluated multi-key retrieval setting and remains strong in both recurrent and hybrid settings. Code is available at https://github.com/NVlabs/GatedDeltaNet-2.