MDN : Parallélisation du Momentum par Étapes pour l'Attention Linéaire Delta

Résumé

L'Attention Linéaire (AL) offre un paradigme prometteur pour le passage à l'échelle des grands modèles de langage (LLM) sur de longues séquences, en évitant la complexité quadratique de l'auto-attention. Les modèles AL récents, tels que Mamba2 et GDN, interprètent les récurrences linéaires comme une descente de gradient stochastique en ligne sous forme fermée, mais les mises à jour naïves du SGD souffrent d'une dégradation rapide de l'information et d'une convergence sous-optimale lors de l'optimisation. Bien que les optimiseurs à momentum offrent un remède naturel, ils posent des défis pour atteindre simultanément l'efficacité et l'efficience de l'entraînement. Pour y remédier, nous développons un algorithme parallèle par blocs pour l'AL avec une règle de momentum pas à pas en réorganisant géométriquement les coefficients de mise à jour. De plus, dans une perspective de systèmes dynamiques, nous analysons la récurrence basée sur le momentum comme un système du second ordre qui introduit des valeurs propres complexes conjuguées. Cette analyse guide la conception de contraintes de stabilisation par portes. Le modèle résultant, Momentum DeltaNet (MDN), exploite des noyaux Triton pour atteindre un débit d'entraînement comparable à celui de modèles linéaires compétitifs tels que Mamba2 et KDA. Des expériences approfondies sur des modèles de 400M et 1,3B paramètres démontrent des améliorations de performance constantes par rapport à des références solides, notamment les Transformers, Mamba2 et GDN, sur divers benchmarks d'évaluation aval. Code : https://github.com/HuuYuLong/MomentumDeltaNet.

English

Linear Attention (LA) offers a promising paradigm for scaling large language models (LLMs) to long sequences by avoiding the quadratic complexity of self-attention. Recent LA models such as Mamba2 and GDN interpret linear recurrences as closed-form online stochastic gradient descent (SGD), but naive SGD updates suffer from rapid information decay and suboptimal convergence in optimization. While momentum-based optimizers provide a natural remedy, they pose challenges in simultaneously achieving training efficiency and effectiveness. To address this, we develop a chunkwise parallel algorithm for LA with a stepwise momentum rule by geometrically reordering the update coefficients. Further, from a dynamical systems perspective, we analyze the momentum-based recurrence as a second-order system that introduces complex conjugate eigenvalues. This analysis guides the design of stable gating constraints. The resulting model, Momentum DeltaNet (MDN), leverages Triton kernels to achieve comparable training throughput with competitive linear models such as Mamba2 and KDA. Extensive experiments on the 400M and 1.3B parameter models demonstrate consistent performance improvements over strong baselines, including Transformers, Mamba2 and GDN, across diverse downstream evaluation benchmarks. Code: https://github.com/HuuYuLong/MomentumDeltaNet .

MDN : Parallélisation du Momentum par Étapes pour l'Attention Linéaire Delta

MDN: Parallelizing Stepwise Momentum for Delta Linear Attention

Résumé

Support