Atenção de Consulta Esparsa (SQA): Um Mecanismo de Atenção Computacionalmente Eficiente com Redução de Cabeças de Consulta
Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction
October 2, 2025
Autores: Adam Filipek
cs.AI
Resumo
A arquitetura Transformer, sustentada pelo mecanismo de Multi-Head Attention (MHA), tornou-se o padrão de fato para modelos de ponta em inteligência artificial. No entanto, a complexidade computacional quadrática do MHA em relação ao comprimento da sequência representa uma barreira significativa para a escalabilidade, especialmente em aplicações que envolvem contextos longos. Soluções predominantes, como Multi-Query Attention (MQA) e Grouped-Query Attention (GQA), abordaram efetivamente o gargalo de largura de banda de memória que domina a latência de inferência autoregressiva, compartilhando as projeções de Chave (Key) e Valor (Value). Embora altamente bem-sucedidos, esses métodos não reduzem o número fundamental de operações de ponto flutuante (FLOPs) necessárias para o cálculo dos escores de atenção, que continua sendo um gargalo crítico para o treinamento e o processamento de sequências completas. Este artigo introduz o Sparse Query Attention (SQA), uma nova arquitetura de atenção que segue um caminho de otimização alternativo e complementar. Em vez de reduzir as cabeças de Chave/Valor, o SQA reduz o número de cabeças de Consulta (Query). Essa modificação arquitetural diminui diretamente a complexidade computacional do mecanismo de atenção por um fator proporcional à redução das cabeças de consulta, reduzindo assim o total de FLOPs. Este trabalho apresenta a fundamentação teórica do SQA, sua formulação matemática e uma família de variantes arquiteturais. Benchmarks empíricos em sequências longas (32k-200k tokens) demonstram que o SQA pode alcançar melhorias significativas de throughput de até 3x em cenários limitados por computação, como pré-treinamento de modelos, ajuste fino e tarefas baseadas em codificadores, com apenas um impacto mínimo na qualidade do modelo em experimentos preliminares em pequena escala. O SQA foi descoberto de forma serendípita durante o desenvolvimento da próxima arquitetura Reactive Transformer, sugerindo seu potencial como uma ferramenta poderosa para a construção de modelos mais eficientes e escaláveis.
English
The Transformer architecture, underpinned by the Multi-Head Attention (MHA)
mechanism, has become the de facto standard for state-of-the-art models in
artificial intelligence. However, the quadratic computational complexity of MHA
with respect to sequence length presents a significant barrier to scaling,
particularly for applications involving long contexts. Prevailing solutions,
such as Multi-Query Attention (MQA) and Grouped-Query Attention (GQA), have
effectively addressed the memory bandwidth bottleneck that dominates
autoregressive inference latency by sharing Key and Value projections. While
highly successful, these methods do not reduce the fundamental number of
floating-point operations (FLOPs) required for the attention score computation,
which remains a critical bottleneck for training and full-sequence processing.
This paper introduces Sparse Query Attention (SQA), a novel attention
architecture that pursues an alternative and complementary optimization path.
Instead of reducing Key/Value heads, SQA reduces the number of Query heads.
This architectural modification directly decreases the computational complexity
of the attention mechanism by a factor proportional to the reduction in query
heads, thereby lowering the overall FLOPs. This work presents the theoretical
foundation of SQA, its mathematical formulation, and a family of architectural
variants. Empirical benchmarks on long sequences (32k-200k tokens) demonstrate
that SQA can achieve significant throughput improvements of up to 3x in
computation-bound scenarios such as model pre-training, fine-tuning, and
encoder-based tasks, with only a minimal impact on model quality in preliminary
smallscale experiments. SQA was discovered serendipitously during the
development of the upcoming Reactive Transformer architecture, suggesting its
potential as a powerful tool for building more efficient and scalable models