ChatPaper.aiChatPaper

Attenzione Sparse Query (SQA): Un meccanismo di attenzione computazionalmente efficiente con riduzione delle teste di query

Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction

October 2, 2025
Autori: Adam Filipek
cs.AI

Abstract

L'architettura Transformer, sostenuta dal meccanismo di Multi-Head Attention (MHA), è diventata lo standard de facto per i modelli all'avanguardia nell'intelligenza artificiale. Tuttavia, la complessità computazionale quadratica di MHA rispetto alla lunghezza della sequenza rappresenta un significativo ostacolo alla scalabilità, in particolare per le applicazioni che coinvolgono contesti lunghi. Le soluzioni prevalenti, come Multi-Query Attention (MQA) e Grouped-Query Attention (GQA), hanno affrontato efficacemente il collo di bottiglia della larghezza di banda della memoria che domina la latenza dell'inferenza autoregressiva condividendo le proiezioni di Chiave e Valore. Sebbene di grande successo, questi metodi non riducono il numero fondamentale di operazioni in virgola mobile (FLOP) richiesto per il calcolo del punteggio di attenzione, che rimane un collo di bottiglia critico per l'addestramento e l'elaborazione di sequenze complete. Questo articolo introduce Sparse Query Attention (SQA), una nuova architettura di attenzione che persegue un percorso di ottimizzazione alternativo e complementare. Invece di ridurre le teste di Chiave/Valore, SQA riduce il numero di teste di Query. Questa modifica architetturale diminuisce direttamente la complessità computazionale del meccanismo di attenzione di un fattore proporzionale alla riduzione delle teste di query, riducendo così i FLOP complessivi. Questo lavoro presenta le basi teoriche di SQA, la sua formulazione matematica e una famiglia di varianti architetturali. Benchmark empirici su sequenze lunghe (32k-200k token) dimostrano che SQA può ottenere miglioramenti significativi della velocità di elaborazione fino a 3x in scenari vincolati dal calcolo come il pre-addestramento del modello, il fine-tuning e i task basati su encoder, con un impatto minimo sulla qualità del modello in esperimenti preliminari su piccola scala. SQA è stata scoperta casualmente durante lo sviluppo della prossima architettura Reactive Transformer, suggerendo il suo potenziale come strumento potente per costruire modelli più efficienti e scalabili.
English
The Transformer architecture, underpinned by the Multi-Head Attention (MHA) mechanism, has become the de facto standard for state-of-the-art models in artificial intelligence. However, the quadratic computational complexity of MHA with respect to sequence length presents a significant barrier to scaling, particularly for applications involving long contexts. Prevailing solutions, such as Multi-Query Attention (MQA) and Grouped-Query Attention (GQA), have effectively addressed the memory bandwidth bottleneck that dominates autoregressive inference latency by sharing Key and Value projections. While highly successful, these methods do not reduce the fundamental number of floating-point operations (FLOPs) required for the attention score computation, which remains a critical bottleneck for training and full-sequence processing. This paper introduces Sparse Query Attention (SQA), a novel attention architecture that pursues an alternative and complementary optimization path. Instead of reducing Key/Value heads, SQA reduces the number of Query heads. This architectural modification directly decreases the computational complexity of the attention mechanism by a factor proportional to the reduction in query heads, thereby lowering the overall FLOPs. This work presents the theoretical foundation of SQA, its mathematical formulation, and a family of architectural variants. Empirical benchmarks on long sequences (32k-200k tokens) demonstrate that SQA can achieve significant throughput improvements of up to 3x in computation-bound scenarios such as model pre-training, fine-tuning, and encoder-based tasks, with only a minimal impact on model quality in preliminary smallscale experiments. SQA was discovered serendipitously during the development of the upcoming Reactive Transformer architecture, suggesting its potential as a powerful tool for building more efficient and scalable models
PDF152October 3, 2025