MDN: Параллелизация пошагового момента для дельта-линейного внимания

Аннотация

Линейное внимание (LA) представляет собой перспективную парадигму для масштабирования больших языковых моделей (LLM) на длинные последовательности, позволяя избежать квадратичной сложности самовнимания. Недавние модели LA, такие как Mamba2 и GDN, интерпретируют линейные рекурренции как замкнутую форму онлайн-стохастического градиентного спуска (SGD), однако наивные обновления SGD страдают от быстрого затухания информации и субоптимальной сходимости при оптимизации. Хотя оптимизаторы на основе импульса (momentum) предлагают естественное решение, они создают проблемы при одновременном достижении эффективности и результативности обучения. Для решения этой проблемы мы разрабатываем блочно-параллельный алгоритм для LA с пошаговым правилом импульса, используя геометрическую перестановку коэффициентов обновления. Кроме того, с точки зрения динамических систем мы анализируем рекурренцию на основе импульса как систему второго порядка, которая вводит комплексно-сопряженные собственные значения. Этот анализ направляет разработку стабильных ограничений на стробирование (gating). Полученная модель, Momentum DeltaNet (MDN), использует ядра Triton для достижения сопоставимой пропускной способности обучения с конкурентоспособными линейными моделями, такими как Mamba2 и KDA. Обширные эксперименты на моделях с 400 миллионами и 1,3 миллиардами параметров демонстрируют последовательное улучшение производительности по сравнению с сильными базовыми линиями, включая Transformers, Mamba2 и GDN, в различных задачах нисходящей оценки. Код: https://github.com/HuuYuLong/MomentumDeltaNet .

English

Linear Attention (LA) offers a promising paradigm for scaling large language models (LLMs) to long sequences by avoiding the quadratic complexity of self-attention. Recent LA models such as Mamba2 and GDN interpret linear recurrences as closed-form online stochastic gradient descent (SGD), but naive SGD updates suffer from rapid information decay and suboptimal convergence in optimization. While momentum-based optimizers provide a natural remedy, they pose challenges in simultaneously achieving training efficiency and effectiveness. To address this, we develop a chunkwise parallel algorithm for LA with a stepwise momentum rule by geometrically reordering the update coefficients. Further, from a dynamical systems perspective, we analyze the momentum-based recurrence as a second-order system that introduces complex conjugate eigenvalues. This analysis guides the design of stable gating constraints. The resulting model, Momentum DeltaNet (MDN), leverages Triton kernels to achieve comparable training throughput with competitive linear models such as Mamba2 and KDA. Extensive experiments on the 400M and 1.3B parameter models demonstrate consistent performance improvements over strong baselines, including Transformers, Mamba2 and GDN, across diverse downstream evaluation benchmarks. Code: https://github.com/HuuYuLong/MomentumDeltaNet .

MDN: Параллелизация пошагового момента для дельта-линейного внимания

MDN: Parallelizing Stepwise Momentum for Delta Linear Attention

Аннотация

Support