Attention à Têtes Frappantes

papers.abstract

L'attention multi-têtes (MTA) est devenue la pierre angulaire des grands modèles de langage modernes, améliorant la capacité de représentation grâce à des têtes d'attention parallèles. Cependant, l'augmentation du nombre de têtes affaiblit intrinsèquement la capacité individuelle de chaque tête, et les mécanismes d'attention existants - qu'il s'agisse de la MTA standard ou de ses variantes comme l'attention à requêtes groupées (GQA) et l'attention liée groupée (GTA - se contentent de concaténer les sorties de têtes isolées sans interaction forte. Pour remédier à cette limitation, nous proposons l'attention par "cognement de têtes" (KHA), qui permet aux têtes d'attention de "cogner" les unes contre les autres - facilitant des interactions au niveau des caractéristiques entre les têtes avant l'attention par produit scalaire mis à l'échelle. Ceci est réalisé en appliquant une matrice de projection partagée, initialisée de manière diagonale, à toutes les têtes. L'initialisation diagonale préserve la spécialisation spécifique à chaque tête au début de l'entraînement tout en permettant au modèle d'apprendre progressivement des représentations intégrées entre les têtes. KHA n'ajoute que des paramètres et des FLOPs minimaux et peut être intégré de manière transparente dans la MTA, la GQA, la GTA et d'autres variantes d'attention. Nous validons KHA en entraînant un modèle MoE de 6,1 milliards de paramètres (1,01 milliard activé) sur 1 000 milliards de tokens de haute qualité. Par rapport aux mécanismes d'attention de référence, KHA offre une dynamique d'entraînement supérieure et plus stable, obtenant de meilleures performances sur diverses tâches en aval.

English

Multi-head attention (MHA) has become the cornerstone of modern large language models, enhancing representational capacity through parallel attention heads. However, increasing the number of heads inherently weakens individual head capacity, and existing attention mechanisms - whether standard MHA or its variants like grouped-query attention (GQA) and grouped-tied attention (GTA) - simply concatenate outputs from isolated heads without strong interaction. To address this limitation, we propose knocking-heads attention (KHA), which enables attention heads to "knock" on each other - facilitating cross-head feature-level interactions before the scaled dot-product attention. This is achieved by applying a shared, diagonally-initialized projection matrix across all heads. The diagonal initialization preserves head-specific specialization at the start of training while allowing the model to progressively learn integrated cross-head representations. KHA adds only minimal parameters and FLOPs and can be seamlessly integrated into MHA, GQA, GTA, and other attention variants. We validate KHA by training a 6.1B parameter MoE model (1.01B activated) on 1T high-quality tokens. Compared to baseline attention mechanisms, KHA brings superior and more stable training dynamics, achieving better performance across downstream tasks.

Attention à Têtes Frappantes

Knocking-Heads Attention

papers.abstract

Support