Разреженное внимание по запросам (SQA): Вычислительно эффективный механизм внимания с сокращением голов запросов
Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction
October 2, 2025
Авторы: Adam Filipek
cs.AI
Аннотация
Архитектура Transformer, основанная на механизме Multi-Head Attention (MHA), стала де-факто стандартом для современных моделей искусственного интеллекта. Однако квадратичная вычислительная сложность MHA по отношению к длине последовательности представляет собой значительное препятствие для масштабирования, особенно для приложений, связанных с длинными контекстами. Распространенные решения, такие как Multi-Query Attention (MQA) и Grouped-Query Attention (GQA), эффективно устранили узкое место, связанное с пропускной способностью памяти, которое доминирует в задержке авторегрессивного вывода, за счет совместного использования проекций Key и Value. Несмотря на их успешность, эти методы не сокращают фундаментальное количество операций с плавающей запятой (FLOPs), необходимых для вычисления оценок внимания, что остается критическим узким местом для обучения и обработки полных последовательностей. В данной статье представлена Sparse Query Attention (SQA) — новая архитектура внимания, которая предлагает альтернативный и дополняющий путь оптимизации. Вместо сокращения числа голов Key/Value, SQA уменьшает количество голов Query. Такая архитектурная модификация напрямую снижает вычислительную сложность механизма внимания на коэффициент, пропорциональный сокращению числа голов Query, тем самым уменьшая общее количество FLOPs. В работе представлены теоретические основы SQA, её математическая формулировка и семейство архитектурных вариантов. Эмпирические тесты на длинных последовательностях (32k–200k токенов) демонстрируют, что SQA может достичь значительного увеличения пропускной способности — до 3 раз в сценариях, ограниченных вычислениями, таких как предварительное обучение модели, тонкая настройка и задачи на основе кодировщика, при минимальном влиянии на качество модели в предварительных экспериментах малого масштаба. SQA была обнаружена случайно в процессе разработки новой архитектуры Reactive Transformer, что указывает на её потенциал как мощного инструмента для создания более эффективных и масштабируемых моделей.
English
The Transformer architecture, underpinned by the Multi-Head Attention (MHA)
mechanism, has become the de facto standard for state-of-the-art models in
artificial intelligence. However, the quadratic computational complexity of MHA
with respect to sequence length presents a significant barrier to scaling,
particularly for applications involving long contexts. Prevailing solutions,
such as Multi-Query Attention (MQA) and Grouped-Query Attention (GQA), have
effectively addressed the memory bandwidth bottleneck that dominates
autoregressive inference latency by sharing Key and Value projections. While
highly successful, these methods do not reduce the fundamental number of
floating-point operations (FLOPs) required for the attention score computation,
which remains a critical bottleneck for training and full-sequence processing.
This paper introduces Sparse Query Attention (SQA), a novel attention
architecture that pursues an alternative and complementary optimization path.
Instead of reducing Key/Value heads, SQA reduces the number of Query heads.
This architectural modification directly decreases the computational complexity
of the attention mechanism by a factor proportional to the reduction in query
heads, thereby lowering the overall FLOPs. This work presents the theoretical
foundation of SQA, its mathematical formulation, and a family of architectural
variants. Empirical benchmarks on long sequences (32k-200k tokens) demonstrate
that SQA can achieve significant throughput improvements of up to 3x in
computation-bound scenarios such as model pre-training, fine-tuning, and
encoder-based tasks, with only a minimal impact on model quality in preliminary
smallscale experiments. SQA was discovered serendipitously during the
development of the upcoming Reactive Transformer architecture, suggesting its
potential as a powerful tool for building more efficient and scalable models