ChatPaper.aiChatPaper

Entmystifizierung des Schrägstrich-Musters in der Aufmerksamkeit: Die Rolle von RoPE

Demystifying the Slash Pattern in Attention: The Role of RoPE

January 13, 2026
papers.authors: Yuan Cheng, Fengzhuo Zhang, Yunlong Hou, Cunxiao Du, Chao Du, Tianyu Pang, Aixin Sun, Zhuoran Yang
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) zeigen häufig diagonale Aufmerksamkeitsmuster, bei denen sich die Aufmerksamkeitswerte entlang der Δ-ten Subdiagonalen für einen bestimmten Offset Δ konzentrieren. Diese Muster spielen eine Schlüsselrolle beim Informationsaustausch zwischen Tokens. Aber warum entstehen sie? In dieser Arbeit klären wir das Auftreten dieser diagonal-dominanten Köpfe (SDHs) aus empirischer und theoretischer Perspektive. Zunächst stellen wir durch die Analyse quelloffener LLMs fest, dass SDHs den Modellen intrinsisch sind und sich auf Out-of-Distribution-Prompts verallgemeinern lassen. Um das intrinsische Auftreten zu erklären, analysieren wir die Queries, Keys und das Rotary Position Embedding (RoPE), die gemeinsam die Aufmerksamkeitswerte bestimmen. Unsere empirische Analyse zeigt zwei charakteristische Bedingungen für SDHs auf: (1) Queries und Keys sind nahezu rang-eins, und (2) RoPE wird von mittleren und hohen Frequenzkomponenten dominiert. Unter diesen Bedingungen sind Queries und Keys über verschiedene Tokens hinweg nahezu identisch, und die Wechselwirkungen zwischen den mittleren und hohen Frequenzkomponenten von RoPE führen zu SDHs. Über empirische Belege hinaus zeigen wir theoretisch, dass diese Bedingungen ausreichen, um das Auftreten von SDHs zu gewährleisten, indem wir sie als unsere Modellierungsannahmen formalisieren. Insbesondere analysieren wir die Trainingsdynamik eines flachen Transformers mit RoPE unter diesen Bedingungen und beweisen, dass Modelle, die mit Gradientenabstieg trainiert werden, SDHs aufweisen. Die SDHs verallgemeinern sich auf Out-of-Distribution-Prompts.
English
Large Language Models (LLMs) often exhibit slash attention patterns, where attention scores concentrate along the Δ-th sub-diagonal for some offset Δ. These patterns play a key role in passing information across tokens. But why do they emerge? In this paper, we demystify the emergence of these Slash-Dominant Heads (SDHs) from both empirical and theoretical perspectives. First, by analyzing open-source LLMs, we find that SDHs are intrinsic to models and generalize to out-of-distribution prompts. To explain the intrinsic emergence, we analyze the queries, keys, and Rotary Position Embedding (RoPE), which jointly determine attention scores. Our empirical analysis reveals two characteristic conditions of SDHs: (1) Queries and keys are almost rank-one, and (2) RoPE is dominated by medium- and high-frequency components. Under these conditions, queries and keys are nearly identical across tokens, and interactions between medium- and high-frequency components of RoPE give rise to SDHs. Beyond empirical evidence, we theoretically show that these conditions are sufficient to ensure the emergence of SDHs by formalizing them as our modeling assumptions. Particularly, we analyze the training dynamics of a shallow Transformer equipped with RoPE under these conditions, and prove that models trained via gradient descent exhibit SDHs. The SDHs generalize to out-of-distribution prompts.
PDF11January 17, 2026