MDN: Parallelisierung von schrittweisem Momentum für Delta Lineare Aufmerksamkeit

Zusammenfassung

Lineare Aufmerksamkeit (LA) bietet ein vielversprechendes Paradigma zur Skalierung großer Sprachmodelle (LLMs) auf lange Sequenzen, indem die quadratische Komplexität der Selbstaufmerksamkeit vermieden wird. Aktuelle LA-Modelle wie Mamba2 und GDN interpretieren lineare Rekursionen als stochastischen Gradientenabstieg (SGD) in geschlossener Form über Online-Lernen, doch naive SGD-Updates leiden unter schnellem Informationsverfall und suboptimaler Konvergenz bei der Optimierung. Während momentum-basierte Optimierer eine natürliche Abhilfe bieten, stellen sie eine Herausforderung dar, gleichzeitig Trainingseffizienz und -wirksamkeit zu erreichen. Um dies zu adressieren, entwickeln wir einen blockweisen parallelen Algorithmus für LA mit einer schrittweisen Momentum-Regel, indem wir die Update-Koeffizienten geometrisch neu anordnen. Darüber hinaus analysieren wir aus der Perspektive dynamischer Systeme die momentum-basierte Rekursion als ein System zweiter Ordnung, das komplex konjugierte Eigenwerte einführt. Diese Analyse leitet das Design stabiler Gating-Beschränkungen. Das resultierende Modell, Momentum DeltaNet (MDN), nutzt Triton-Kernel, um einen vergleichbaren Trainingsdurchsatz mit konkurrierenden linearen Modellen wie Mamba2 und KDA zu erzielen. Umfangreiche Experimente mit Modellen mit 400 Millionen und 1,3 Milliarden Parametern zeigen konsistente Leistungsverbesserungen gegenüber starken Basislinien, darunter Transformer, Mamba2 und GDN, über verschiedene nachgelagerte Evaluierungsbenchmarks hinweg. Code: https://github.com/HuuYuLong/MomentumDeltaNet .

English

Linear Attention (LA) offers a promising paradigm for scaling large language models (LLMs) to long sequences by avoiding the quadratic complexity of self-attention. Recent LA models such as Mamba2 and GDN interpret linear recurrences as closed-form online stochastic gradient descent (SGD), but naive SGD updates suffer from rapid information decay and suboptimal convergence in optimization. While momentum-based optimizers provide a natural remedy, they pose challenges in simultaneously achieving training efficiency and effectiveness. To address this, we develop a chunkwise parallel algorithm for LA with a stepwise momentum rule by geometrically reordering the update coefficients. Further, from a dynamical systems perspective, we analyze the momentum-based recurrence as a second-order system that introduces complex conjugate eigenvalues. This analysis guides the design of stable gating constraints. The resulting model, Momentum DeltaNet (MDN), leverages Triton kernels to achieve comparable training throughput with competitive linear models such as Mamba2 and KDA. Extensive experiments on the 400M and 1.3B parameter models demonstrate consistent performance improvements over strong baselines, including Transformers, Mamba2 and GDN, across diverse downstream evaluation benchmarks. Code: https://github.com/HuuYuLong/MomentumDeltaNet .

MDN: Parallelisierung von schrittweisem Momentum für Delta Lineare Aufmerksamkeit

MDN: Parallelizing Stepwise Momentum for Delta Linear Attention

Zusammenfassung

Support