Atención de Consulta Escasa (SQA): Un Mecanismo de Atención Computacionalmente Eficiente con Reducción de Cabezales de Consulta

Resumen

La arquitectura Transformer, sustentada por el mecanismo de Atención Multi-Cabeza (MHA, por sus siglas en inglés), se ha convertido en el estándar de facto para los modelos de vanguardia en inteligencia artificial. Sin embargo, la complejidad computacional cuadrática de MHA con respecto a la longitud de la secuencia representa una barrera significativa para la escalabilidad, particularmente en aplicaciones que involucran contextos largos. Las soluciones predominantes, como la Atención Multi-Consulta (MQA) y la Atención de Consulta Agrupada (GQA), han abordado eficazmente el cuello de botella del ancho de banda de memoria que domina la latencia de inferencia autoregresiva mediante la compartición de proyecciones de Clave y Valor. Aunque altamente exitosos, estos métodos no reducen el número fundamental de operaciones de punto flotante (FLOPs) requeridas para el cálculo de las puntuaciones de atención, lo que sigue siendo un cuello de botella crítico para el entrenamiento y el procesamiento de secuencias completas. Este artículo introduce la Atención de Consulta Dispersa (SQA), una arquitectura de atención novedosa que persigue una ruta de optimización alternativa y complementaria. En lugar de reducir las cabezas de Clave/Valor, SQA reduce el número de cabezas de Consulta. Esta modificación arquitectónica disminuye directamente la complejidad computacional del mecanismo de atención en un factor proporcional a la reducción de cabezas de consulta, reduciendo así el total de FLOPs. Este trabajo presenta los fundamentos teóricos de SQA, su formulación matemática y una familia de variantes arquitectónicas. Los puntos de referencia empíricos en secuencias largas (32k-200k tokens) demuestran que SQA puede lograr mejoras significativas en el rendimiento de hasta 3x en escenarios limitados por la computación, como el preentrenamiento de modelos, el ajuste fino y las tareas basadas en codificadores, con solo un impacto mínimo en la calidad del modelo en experimentos preliminares a pequeña escala. SQA fue descubierta de manera fortuita durante el desarrollo de la próxima arquitectura Transformer Reactiva, lo que sugiere su potencial como una herramienta poderosa para construir modelos más eficientes y escalables.

English

The Transformer architecture, underpinned by the Multi-Head Attention (MHA) mechanism, has become the de facto standard for state-of-the-art models in artificial intelligence. However, the quadratic computational complexity of MHA with respect to sequence length presents a significant barrier to scaling, particularly for applications involving long contexts. Prevailing solutions, such as Multi-Query Attention (MQA) and Grouped-Query Attention (GQA), have effectively addressed the memory bandwidth bottleneck that dominates autoregressive inference latency by sharing Key and Value projections. While highly successful, these methods do not reduce the fundamental number of floating-point operations (FLOPs) required for the attention score computation, which remains a critical bottleneck for training and full-sequence processing. This paper introduces Sparse Query Attention (SQA), a novel attention architecture that pursues an alternative and complementary optimization path. Instead of reducing Key/Value heads, SQA reduces the number of Query heads. This architectural modification directly decreases the computational complexity of the attention mechanism by a factor proportional to the reduction in query heads, thereby lowering the overall FLOPs. This work presents the theoretical foundation of SQA, its mathematical formulation, and a family of architectural variants. Empirical benchmarks on long sequences (32k-200k tokens) demonstrate that SQA can achieve significant throughput improvements of up to 3x in computation-bound scenarios such as model pre-training, fine-tuning, and encoder-based tasks, with only a minimal impact on model quality in preliminary smallscale experiments. SQA was discovered serendipitously during the development of the upcoming Reactive Transformer architecture, suggesting its potential as a powerful tool for building more efficient and scalable models

Atención de Consulta Escasa (SQA): Un Mecanismo de Atención Computacionalmente Eficiente con Reducción de Cabezales de Consulta

Sparse Query Attention (SQA): A Computationally Efficient Attention Mechanism with Query Heads Reduction

Resumen

Support