ChatPaper.aiChatPaper

Обучаемая динамическая маска разреженного внимания

Trainable Dynamic Mask Sparse Attention

August 4, 2025
Авторы: Jingze Shi, Yifan Wu, Bingheng Wu, Yiran Peng, Liangdong Wang, Guang Liu, Yuyu Luo
cs.AI

Аннотация

В крупных языковых моделях потребность в моделировании длинных контекстов постоянно растет, однако квадратичная сложность стандартного механизма самовнимания часто становится узким местом. Хотя существующие разреженные механизмы внимания повысили эффективность, они все еще могут сталкиваться с проблемами, такими как статические паттерны или потеря информации. Мы представляем обучаемый механизм разреженного внимания с динамической маской, Dynamic Mask Attention (DMA), который эффективно использует разреженность, учитывающую содержание и позицию. DMA достигает этого благодаря двум ключевым инновациям: во-первых, он динамически генерирует разреженные маски, учитывающие содержание, на основе представлений значений, что позволяет модели адаптивно выявлять и фокусироваться на критически важной информации. Во-вторых, он реализует вычисление разреженного внимания, учитывающего позицию, что эффективно пропускает ненужные области вычислений. Этот двойной подход к разреженности позволяет модели значительно снизить вычислительную сложность для важной информации, сохраняя при этом полную информацию, достигая отличного баланса между точностью информации и вычислительной эффективностью. Мы проверили производительность DMA с помощью всесторонних экспериментов. Сравнительные исследования показывают, что DMA превосходит многоголовое внимание, скользящее окно внимания, многоголовое латентное внимание и нативное разреженное внимание по показателю перплексии в условиях Chinchilla Scaling Law. Более того, в сложных задачах ассоциативного поиска с множественными запросами DMA также демонстрирует превосходную производительность и эффективность по сравнению с этими методами. Важно отметить, что в оценке модели с 1,7 миллиардами параметров DMA значительно превосходит многоголовое внимание как в стандартных тестах производительности, так и в сложной задаче "иголка в стоге сена". Эти экспериментальные результаты подчеркивают его способность эффективно балансировать между эффективностью модели и способностью к моделированию длинных контекстов.
English
In large language models, the demand for modeling long contexts is constantly increasing, but the quadratic complexity of the standard self-attention mechanism often becomes a bottleneck. Although existing sparse attention mechanisms have improved efficiency, they may still encounter issues such as static patterns or information loss. We introduce a trainable dynamic mask sparse attention mechanism, Dynamic Mask Attention, which effectively utilizes content-aware and position-aware sparsity. DMA achieves this through two key innovations: First, it dynamically generates content-aware sparse masks from value representations, enabling the model to identify and focus on critical information adaptively. Second, it implements position-aware sparse attention computation that effectively skips unnecessary calculation regions. This dual-sparsity design allows the model to significantly reduce the computational complexity of important information while retaining complete information, achieving an excellent balance between information fidelity and computational efficiency. We have verified the performance of DMA through comprehensive experiments. Comparative studies show that DMA outperforms multi-head attention, sliding window attention, multi-head latent attention, and native sparse attention in terms of perplexity under Chinchilla Scaling Law settings. Moreover, in challenging multi-query associative recall tasks, DMA also demonstrates superior performance and efficiency compared to these methods. Crucially, in the evaluation of a 1.7B parameter model, DMA significantly outperforms multi-head attention in both standard benchmark performance and the challenging needle-in-a-haystack task. These experimental results highlight its capability to balance model efficiency and long-context modeling ability effectively.
PDF41August 5, 2025