MDN: Paralelización del Momento Escalonado para Atención Lineal Delta

Resumen

**Atención Lineal (AL)** ofrece un paradigma prometedor para escalar modelos de lenguaje grandes (LLM) a secuencias largas al evitar la complejidad cuadrática de la auto-atención. Modelos recientes de AL como Mamba2 y GDN interpretan las recurrencias lineales como descenso de gradiente estocástico (SGD) en forma cerrada en línea, pero las actualizaciones SGD ingenuas sufren de decaimiento rápido de información y convergencia subóptima en la optimización. Aunque los optimizadores basados en momento ofrecen una solución natural, plantean desafíos para lograr simultáneamente eficiencia y efectividad en el entrenamiento. Para abordar esto, desarrollamos un algoritmo paralelo por bloques para AL con una regla de momento por pasos, reordenando geométricamente los coeficientes de actualización. Además, desde una perspectiva de sistemas dinámicos, analizamos la recurrencia basada en momento como un sistema de segundo orden que introduce valores propios complejos conjugados. Este análisis guía el diseño de restricciones de compuerta estables. El modelo resultante, **Momentum DeltaNet (MDN)**, aprovecha núcleos Triton para alcanzar un rendimiento de entrenamiento comparable con modelos lineales competitivos como Mamba2 y KDA. Experimentos exhaustivos en modelos de 400M y 1.3B de parámetros demuestran mejoras consistentes sobre líneas base sólidas, incluyendo Transformers, Mamba2 y GDN, en diversos benchmarks de evaluación posteriores. Código: https://github.com/HuuYuLong/MomentumDeltaNet .

English

Linear Attention (LA) offers a promising paradigm for scaling large language models (LLMs) to long sequences by avoiding the quadratic complexity of self-attention. Recent LA models such as Mamba2 and GDN interpret linear recurrences as closed-form online stochastic gradient descent (SGD), but naive SGD updates suffer from rapid information decay and suboptimal convergence in optimization. While momentum-based optimizers provide a natural remedy, they pose challenges in simultaneously achieving training efficiency and effectiveness. To address this, we develop a chunkwise parallel algorithm for LA with a stepwise momentum rule by geometrically reordering the update coefficients. Further, from a dynamical systems perspective, we analyze the momentum-based recurrence as a second-order system that introduces complex conjugate eigenvalues. This analysis guides the design of stable gating constraints. The resulting model, Momentum DeltaNet (MDN), leverages Triton kernels to achieve comparable training throughput with competitive linear models such as Mamba2 and KDA. Extensive experiments on the 400M and 1.3B parameter models demonstrate consistent performance improvements over strong baselines, including Transformers, Mamba2 and GDN, across diverse downstream evaluation benchmarks. Code: https://github.com/HuuYuLong/MomentumDeltaNet .

MDN: Paralelización del Momento Escalonado para Atención Lineal Delta

MDN: Parallelizing Stepwise Momentum for Delta Linear Attention

Resumen

Support