Gated DeltaNet-2: Разделение стирания и записи в линейном внимании

Аннотация

Линейное внимание заменяет неограниченный кэш softmax-внимания рекуррентным состоянием фиксированного размера, сокращая смешивание последовательностей до линейного времени, а декодирование — до постоянной памяти. Сложность заключается не только в том, что забывать, но и в том, как редактировать эту сжатую память, не нарушая существующих ассоциаций. Модели с дельта-правилом вычитают текущее считанное значение перед записью нового, а Kimi Delta Attention (KDA) усиливает забывание с помощью поканального затухания. Однако активное редактирование по-прежнему использует единственный скалярный гейт для управления двумя разными вещами: тем, сколько старого содержимого стереть на стороне ключа, и тем, сколько нового содержимого зафиксировать на стороне значения. Мы представляем Gated DeltaNet-2, который обобщает как Gated DeltaNet, так и KDA, наследуя адаптивное забывание и поканальное затухание, одновременно устраняя их общее ограничение — скалярную связь между стиранием и записью. Gated Delta Rule-2 разделяет эти роли с помощью поканального гейта стирания b_t и поканального гейта записи w_t, сводясь к KDA, когда оба гейта коллапсируют в один и тот же скаляр, и к Gated DeltaNet, когда затухание также коллапсирует. Мы выводим представление быстрых весов, чанковый WY-алгоритм с поглощением поканального затухания в асимметричные факторы стирания, а также прямой проход с учетом гейтов, сохраняющий эффективное параллельное обучение. При 1,3 миллиарда параметров, обученных на 100 миллиардах токенов FineWeb-Edu, Gated DeltaNet-2 достигает наилучших общих результатов среди вариантов Mamba-2, Gated DeltaNet, KDA и Mamba-3 в задачах языкового моделирования, здравого смысла и поиска информации. Его преимущество наиболее заметно в тестах на длинном контексте RULER (иголка в стоге сена), где он улучшает оцененную настройку многоключевого поиска и остается сильным как в рекуррентных, так и в гибридных настройках. Код доступен по адресу: https://github.com/NVlabs/GatedDeltaNet-2.

English

Linear attention replaces the unbounded cache of softmax attention with a fixed-size recurrent state, reducing sequence mixing to linear time and decoding to constant memory. The hard part is not just what to forget, but how to edit this compressed memory without scrambling existing associations. Delta-rule models subtract the current read before writing a new value, and Kimi Delta Attention (KDA) sharpens forgetting with channel-wise decay. But the active edit still uses a single scalar gate to control two different things: how much old content to erase on the key side and how much new content to commit on the value side. We introduce Gated DeltaNet-2, which generalizes both Gated DeltaNet and KDA by inheriting adaptive forgetting and channel-wise decay while addressing their shared limitation, the scalar tie between erasing and writing. Gated Delta Rule-2 separates these roles with a channel-wise erase gate b_t and a channel-wise write gate w_t, reducing to KDA when both gates collapse to the same scalar and to Gated DeltaNet when the decay also collapses. We derive a fast-weight update view, a chunkwise WY algorithm with channel-wise decay absorbed into asymmetric erase factors, and a gate-aware backward pass that preserves efficient parallel training. At 1.3B parameters trained on 100B FineWeb-Edu tokens, Gated DeltaNet-2 achieves the strongest overall results among Mamba-2, Gated DeltaNet, KDA, and Mamba-3 variants across language modeling, commonsense reasoning, and retrieval. Its advantage is most pronounced on long-context RULER needle-in-a-haystack benchmarks, where it improves the evaluated multi-key retrieval setting and remains strong in both recurrent and hybrid settings. Code is available at https://github.com/NVlabs/GatedDeltaNet-2.