Sparse Query Attention (SQA): Ein recheneffizienter Aufmerksamkeitsmechanismus mit Reduktion von Query-Heads
Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction
October 2, 2025
papers.authors: Adam Filipek
cs.AI
papers.abstract
Die Transformer-Architektur, die auf dem Multi-Head Attention (MHA)-Mechanismus basiert, hat sich zum de-facto-Standard für state-of-the-art Modelle in der künstlichen Intelligenz entwickelt. Die quadratische Rechenkomplexität von MHA in Bezug auf die Sequenzlänge stellt jedoch ein erhebliches Hindernis für die Skalierbarkeit dar, insbesondere bei Anwendungen mit langen Kontexten. Vorherrschende Lösungen wie Multi-Query Attention (MQA) und Grouped-Query Attention (GQA) haben den Engpass des Speicherbandbreitenproblems, der die Latenz bei autoregressiven Inferenzen dominiert, effektiv angegangen, indem sie Key- und Value-Projektionen gemeinsam nutzen. Obwohl diese Methoden sehr erfolgreich sind, reduzieren sie nicht die grundlegende Anzahl der für die Berechnung der Aufmerksamkeitswerte erforderlichen Gleitkommaoperationen (FLOPs), die weiterhin ein kritischer Engpass für das Training und die Verarbeitung vollständiger Sequenzen bleibt. Dieses Papier stellt Sparse Query Attention (SQA) vor, eine neuartige Aufmerksamkeitsarchitektur, die einen alternativen und komplementären Optimierungspfad verfolgt. Anstatt die Anzahl der Key/Value-Köpfe zu reduzieren, verringert SQA die Anzahl der Query-Köpfe. Diese architektonische Modifikation reduziert die Rechenkomplexität des Aufmerksamkeitsmechanismus direkt um einen Faktor, der proportional zur Reduzierung der Query-Köpfe ist, und senkt somit die Gesamtanzahl der FLOPs. Diese Arbeit präsentiert die theoretischen Grundlagen von SQA, ihre mathematische Formulierung und eine Familie von architektonischen Varianten. Empirische Benchmarks an langen Sequenzen (32k-200k Tokens) zeigen, dass SQA in rechenintensiven Szenarien wie dem Vortraining, Feinabstimmung und encoderbasierten Aufgaben signifikante Durchsatzsteigerungen von bis zu 3x erreichen kann, wobei in vorläufigen kleinskaligen Experimenten nur ein minimaler Einfluss auf die Modellqualität festgestellt wurde. SQA wurde zufällig während der Entwicklung der kommenden Reactive Transformer-Architektur entdeckt, was auf sein Potenzial als leistungsfähiges Werkzeug für den Aufbau effizienterer und skalierbarer Modelle hindeutet.
English
The Transformer architecture, underpinned by the Multi-Head Attention (MHA)
mechanism, has become the de facto standard for state-of-the-art models in
artificial intelligence. However, the quadratic computational complexity of MHA
with respect to sequence length presents a significant barrier to scaling,
particularly for applications involving long contexts. Prevailing solutions,
such as Multi-Query Attention (MQA) and Grouped-Query Attention (GQA), have
effectively addressed the memory bandwidth bottleneck that dominates
autoregressive inference latency by sharing Key and Value projections. While
highly successful, these methods do not reduce the fundamental number of
floating-point operations (FLOPs) required for the attention score computation,
which remains a critical bottleneck for training and full-sequence processing.
This paper introduces Sparse Query Attention (SQA), a novel attention
architecture that pursues an alternative and complementary optimization path.
Instead of reducing Key/Value heads, SQA reduces the number of Query heads.
This architectural modification directly decreases the computational complexity
of the attention mechanism by a factor proportional to the reduction in query
heads, thereby lowering the overall FLOPs. This work presents the theoretical
foundation of SQA, its mathematical formulation, and a family of architectural
variants. Empirical benchmarks on long sequences (32k-200k tokens) demonstrate
that SQA can achieve significant throughput improvements of up to 3x in
computation-bound scenarios such as model pre-training, fine-tuning, and
encoder-based tasks, with only a minimal impact on model quality in preliminary
smallscale experiments. SQA was discovered serendipitously during the
development of the upcoming Reactive Transformer architecture, suggesting its
potential as a powerful tool for building more efficient and scalable models