MDN: Paralleliseren van stapsgewijs momentum voor delta lineaire aandacht

Samenvatting

Lineaire Attention (LA) biedt een veelbelovend paradigma voor het opschalen van grote taalmodellen (LLMs) naar lange sequenties door de kwadratische complexiteit van self-attention te vermijden. Recente LA-modellen zoals Mamba2 en GDN interpreteren lineaire recurrenties als closed-form online stochastische gradiëntafdaling (SGD), maar naïeve SGD-updates lijden onder snelle informatieverval en suboptimale convergentie in optimalisatie. Hoewel op momentum gebaseerde optimizers een natuurlijke remedie bieden, vormen ze uitdagingen bij het gelijktijdig bereiken van trainingsefficiëntie en effectiviteit. Om dit aan te pakken, ontwikkelen we een chunkwise parallel algoritme voor LA met een stapsgewijze momentumregel door het geometrisch herordenen van de updatecoëfficiënten. Verder analyseren we vanuit een dynamisch systeemperspectief de op momentum gebaseerde recurrentie als een tweede-orde systeem dat complex geconjugeerde eigenwaarden introduceert. Deze analyse leidt tot het ontwerp van stabiele poortbeperkingen. Het resulterende model, Momentum DeltaNet (MDN), maakt gebruik van Triton kernels om een vergelijkbare trainingdoorvoer te bereiken als concurrerende lineaire modellen zoals Mamba2 en KDA. Uitgebreide experimenten met de 400M en 1.3B parametermodellen tonen consistente prestatieverbeteringen aan ten opzichte van sterke baselines, waaronder Transformers, Mamba2 en GDN, in diverse downstream evaluatiebenchmarks. Code: https://github.com/HuuYuLong/MomentumDeltaNet .

English

Linear Attention (LA) offers a promising paradigm for scaling large language models (LLMs) to long sequences by avoiding the quadratic complexity of self-attention. Recent LA models such as Mamba2 and GDN interpret linear recurrences as closed-form online stochastic gradient descent (SGD), but naive SGD updates suffer from rapid information decay and suboptimal convergence in optimization. While momentum-based optimizers provide a natural remedy, they pose challenges in simultaneously achieving training efficiency and effectiveness. To address this, we develop a chunkwise parallel algorithm for LA with a stepwise momentum rule by geometrically reordering the update coefficients. Further, from a dynamical systems perspective, we analyze the momentum-based recurrence as a second-order system that introduces complex conjugate eigenvalues. This analysis guides the design of stable gating constraints. The resulting model, Momentum DeltaNet (MDN), leverages Triton kernels to achieve comparable training throughput with competitive linear models such as Mamba2 and KDA. Extensive experiments on the 400M and 1.3B parameter models demonstrate consistent performance improvements over strong baselines, including Transformers, Mamba2 and GDN, across diverse downstream evaluation benchmarks. Code: https://github.com/HuuYuLong/MomentumDeltaNet .

MDN: Paralleliseren van stapsgewijs momentum voor delta lineaire aandacht

MDN: Parallelizing Stepwise Momentum for Delta Linear Attention

Samenvatting

Support