Attention Sparse par Requêtes (SQA) : Un mécanisme d'attention efficace sur le plan computationnel avec réduction des têtes de requêtes

papers.abstract

L'architecture Transformer, soutenue par le mécanisme d'Attention Multi-Têtes (Multi-Head Attention, MHA), est devenue la norme de facto pour les modèles de pointe en intelligence artificielle. Cependant, la complexité computationnelle quadratique de la MHA par rapport à la longueur des séquences constitue un obstacle majeur à la mise à l'échelle, en particulier pour les applications impliquant des contextes longs. Les solutions prédominantes, telles que l'Attention Multi-Requête (Multi-Query Attention, MQA) et l'Attention à Requêtes Groupées (Grouped-Query Attention, GQA), ont efficacement résolu le goulot d'étranglement de la bande passante mémoire qui domine la latence de l'inférence autorégressive en partageant les projections des clés (Keys) et des valeurs (Values). Bien que très réussies, ces méthodes ne réduisent pas le nombre fondamental d'opérations en virgule flottante (FLOPs) nécessaires au calcul des scores d'attention, qui reste un goulot d'étranglement critique pour l'entraînement et le traitement de séquences complètes. Ce papier introduit l'Attention à Requêtes Sparse (Sparse Query Attention, SQA), une architecture d'attention novatrice qui explore une voie d'optimisation alternative et complémentaire. Au lieu de réduire les têtes de clés/valeurs, la SQA réduit le nombre de têtes de requêtes (Query heads). Cette modification architecturale diminue directement la complexité computationnelle du mécanisme d'attention d'un facteur proportionnel à la réduction des têtes de requêtes, réduisant ainsi le nombre total de FLOPs. Ce travail présente les fondements théoriques de la SQA, sa formulation mathématique, ainsi qu'une famille de variantes architecturales. Des benchmarks empiriques sur des séquences longues (32k à 200k tokens) démontrent que la SQA peut atteindre des améliorations significatives de débit, allant jusqu'à 3x dans des scénarios limités par la computation, tels que le pré-entraînement de modèles, le fine-tuning et les tâches basées sur des encodeurs, avec un impact minimal sur la qualité du modèle dans des expériences préliminaires à petite échelle. La SQA a été découverte de manière fortuite lors du développement de la future architecture Reactive Transformer, suggérant son potentiel en tant qu'outil puissant pour construire des modèles plus efficaces et évolutifs.

English

The Transformer architecture, underpinned by the Multi-Head Attention (MHA) mechanism, has become the de facto standard for state-of-the-art models in artificial intelligence. However, the quadratic computational complexity of MHA with respect to sequence length presents a significant barrier to scaling, particularly for applications involving long contexts. Prevailing solutions, such as Multi-Query Attention (MQA) and Grouped-Query Attention (GQA), have effectively addressed the memory bandwidth bottleneck that dominates autoregressive inference latency by sharing Key and Value projections. While highly successful, these methods do not reduce the fundamental number of floating-point operations (FLOPs) required for the attention score computation, which remains a critical bottleneck for training and full-sequence processing. This paper introduces Sparse Query Attention (SQA), a novel attention architecture that pursues an alternative and complementary optimization path. Instead of reducing Key/Value heads, SQA reduces the number of Query heads. This architectural modification directly decreases the computational complexity of the attention mechanism by a factor proportional to the reduction in query heads, thereby lowering the overall FLOPs. This work presents the theoretical foundation of SQA, its mathematical formulation, and a family of architectural variants. Empirical benchmarks on long sequences (32k-200k tokens) demonstrate that SQA can achieve significant throughput improvements of up to 3x in computation-bound scenarios such as model pre-training, fine-tuning, and encoder-based tasks, with only a minimal impact on model quality in preliminary smallscale experiments. SQA was discovered serendipitously during the development of the upcoming Reactive Transformer architecture, suggesting its potential as a powerful tool for building more efficient and scalable models

Attention Sparse par Requêtes (SQA) : Un mécanisme d'attention efficace sur le plan computationnel avec réduction des têtes de requêtes

Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction

papers.abstract

Support