Gated DeltaNet-2: Desacoplamento de Apagar e Escrever em Atenção Linear

Resumo

A atenção linear substitui o cache ilimitado da atenção softmax por um estado recorrente de tamanho fixo, reduzindo a mistura de sequências para tempo linear e a decodificação para memória constante. A parte difícil não é apenas o que esquecer, mas como editar essa memória comprimida sem embaralhar associações existentes. Modelos baseados em regra delta subtraem a leitura atual antes de escrever um novo valor, e a Atenção Delta Kimi (KDA) aperfeiçoa o esquecimento com decaimento por canal. No entanto, a edição ativa ainda utiliza uma única porta escalar para controlar duas coisas diferentes: quanto do conteúdo antigo apagar no lado da chave e quanto do novo conteúdo comprometer no lado do valor. Apresentamos o Gated DeltaNet-2, que generaliza tanto o Gated DeltaNet quanto o KDA ao herdar o esquecimento adaptativo e o decaimento por canal, enquanto aborda sua limitação compartilhada: a amarração escalar entre apagar e escrever. O Gated Delta Rule-2 separa esses papéis com uma porta de apagamento por canal b_t e uma porta de escrita por canal w_t, reduzindo-se ao KDA quando ambas as portas colapsam para o mesmo escalar e ao Gated DeltaNet quando o decaimento também colapsa. Derivamos uma visão de atualização de pesos rápidos, um algoritmo WY por blocos com decaimento por canal absorvido em fatores de apagamento assimétricos, e um passe reverso consciente das portas que preserva o treinamento paralelo eficiente. Com 1,3 bilhão de parâmetros treinados em 100 bilhões de tokens do FineWeb-Edu, o Gated DeltaNet-2 alcança os resultados gerais mais fortes entre as variantes Mamba-2, Gated DeltaNet, KDA e Mamba-3 em modelagem de linguagem, raciocínio de senso comum e recuperação. Sua vantagem é mais pronunciada em benchmarks de agulha no palheiro RULER de contexto longo, onde melhora a configuração avaliada de recuperação de múltiplas chaves e permanece forte tanto em configurações recorrentes quanto híbridas. O código está disponível em https://github.com/NVlabs/GatedDeltaNet-2.

English

Linear attention replaces the unbounded cache of softmax attention with a fixed-size recurrent state, reducing sequence mixing to linear time and decoding to constant memory. The hard part is not just what to forget, but how to edit this compressed memory without scrambling existing associations. Delta-rule models subtract the current read before writing a new value, and Kimi Delta Attention (KDA) sharpens forgetting with channel-wise decay. But the active edit still uses a single scalar gate to control two different things: how much old content to erase on the key side and how much new content to commit on the value side. We introduce Gated DeltaNet-2, which generalizes both Gated DeltaNet and KDA by inheriting adaptive forgetting and channel-wise decay while addressing their shared limitation, the scalar tie between erasing and writing. Gated Delta Rule-2 separates these roles with a channel-wise erase gate b_t and a channel-wise write gate w_t, reducing to KDA when both gates collapse to the same scalar and to Gated DeltaNet when the decay also collapses. We derive a fast-weight update view, a chunkwise WY algorithm with channel-wise decay absorbed into asymmetric erase factors, and a gate-aware backward pass that preserves efficient parallel training. At 1.3B parameters trained on 100B FineWeb-Edu tokens, Gated DeltaNet-2 achieves the strongest overall results among Mamba-2, Gated DeltaNet, KDA, and Mamba-3 variants across language modeling, commonsense reasoning, and retrieval. Its advantage is most pronounced on long-context RULER needle-in-a-haystack benchmarks, where it improves the evaluated multi-key retrieval setting and remains strong in both recurrent and hybrid settings. Code is available at https://github.com/NVlabs/GatedDeltaNet-2.