Démystifier le motif de barre oblique dans l'attention : Le rôle du RoPE
Demystifying the Slash Pattern in Attention: The Role of RoPE
January 13, 2026
papers.authors: Yuan Cheng, Fengzhuo Zhang, Yunlong Hou, Cunxiao Du, Chao Du, Tianyu Pang, Aixin Sun, Zhuoran Yang
cs.AI
papers.abstract
Les grands modèles de langage (LLM) présentent souvent des motifs d'attention en diagonale, où les scores d'attention se concentrent le long de la sous-diagonale Δ pour un certain décalage Δ. Ces motifs jouent un rôle clé dans la transmission d'informations entre les tokens. Mais pourquoi émergent-ils ? Dans cet article, nous démystifions l'émergence de ces Têtes à Dominance Diagonale (SDH) sous des perspectives empirique et théorique. Premièrement, en analysant des LLM open-source, nous constatons que les SDH sont intrinsèques aux modèles et se généralisent à des prompts hors distribution. Pour expliquer cette émergence intrinsèque, nous analysons les requêtes, les clés et l'Encodage Positionnel Rotationnel (RoPE), qui déterminent conjointement les scores d'attention. Notre analyse empirique révèle deux conditions caractéristiques des SDH : (1) Les requêtes et les clés sont presque de rang un, et (2) Le RoPE est dominé par des composantes de fréquences moyennes et élevées. Sous ces conditions, les requêtes et les clés sont quasi identiques d'un token à l'autre, et les interactions entre les composantes de fréquences moyennes et élevées du RoPE donnent naissance aux SDH. Au-delà des preuves empiriques, nous montrons théoriquement que ces conditions sont suffisantes pour garantir l'émergence des SDH en les formalisant comme nos hypothèses de modélisation. En particulier, nous analysons la dynamique d'apprentissage d'un Transformer peu profond équipé de RoPE sous ces conditions, et prouvons que les modèles entraînés par descente de gradient présentent des SDH. Les SDH se généralisent à des prompts hors distribution.
English
Large Language Models (LLMs) often exhibit slash attention patterns, where attention scores concentrate along the Δ-th sub-diagonal for some offset Δ. These patterns play a key role in passing information across tokens. But why do they emerge? In this paper, we demystify the emergence of these Slash-Dominant Heads (SDHs) from both empirical and theoretical perspectives. First, by analyzing open-source LLMs, we find that SDHs are intrinsic to models and generalize to out-of-distribution prompts. To explain the intrinsic emergence, we analyze the queries, keys, and Rotary Position Embedding (RoPE), which jointly determine attention scores. Our empirical analysis reveals two characteristic conditions of SDHs: (1) Queries and keys are almost rank-one, and (2) RoPE is dominated by medium- and high-frequency components. Under these conditions, queries and keys are nearly identical across tokens, and interactions between medium- and high-frequency components of RoPE give rise to SDHs. Beyond empirical evidence, we theoretically show that these conditions are sufficient to ensure the emergence of SDHs by formalizing them as our modeling assumptions. Particularly, we analyze the training dynamics of a shallow Transformer equipped with RoPE under these conditions, and prove that models trained via gradient descent exhibit SDHs. The SDHs generalize to out-of-distribution prompts.