Demystificatie van het slash-patroon in aandacht: de rol van RoPE

Samenvatting

Grote Taalmodellen (LLM's) vertonen vaak schuine-attentiepatronen, waarbij de aandachtsscores zich concentreren langs de Δ-de subdiagonaal voor een bepaalde offset Δ. Deze patronen spelen een cruciale rol bij het doorgeven van informatie tussen tokens. Maar waarom ontstaan ze? In dit artikel ontrafelen we het ontstaan van deze Schuin-Dominante Hoofden (SDH's) vanuit zowel empirisch als theoretisch perspectief. Ten eerste, door analyse van open-source LLM's, stellen we vast dat SDH's intrinsiek zijn aan de modellen en generaliseren naar prompts buiten de verdeling. Om het intrinsieke ontstaan te verklaren, analyseren we de queries, keys en Rotary Position Embedding (RoPE), die gezamenlijk de aandachtsscores bepalen. Onze empirische analyse onthult twee kenmerkende condities voor SDH's: (1) Queries en keys zijn bijna rang-één, en (2) RoPE wordt gedomineerd door midden- en hoogfrequente componenten. Onder deze condities zijn queries en keys nagenoeg identiek tussen tokens, en zorgen interacties tussen de midden- en hoogfrequente componenten van RoPE voor het ontstaan van SDH's. Naast empirisch bewijs tonen we theoretisch aan dat deze condities voldoende zijn om het ontstaan van SDH's te garanderen door ze te formaliseren als onze modelaannames. In het bijzonder analyseren we de traindynamiek van een ondiepe Transformer uitgerust met RoPE onder deze condities, en bewijzen we dat modellen getraind via gradient descent SDH's vertonen. De SDH's generaliseren naar prompts buiten de verdeling.

English

Large Language Models (LLMs) often exhibit slash attention patterns, where attention scores concentrate along the Δ-th sub-diagonal for some offset Δ. These patterns play a key role in passing information across tokens. But why do they emerge? In this paper, we demystify the emergence of these Slash-Dominant Heads (SDHs) from both empirical and theoretical perspectives. First, by analyzing open-source LLMs, we find that SDHs are intrinsic to models and generalize to out-of-distribution prompts. To explain the intrinsic emergence, we analyze the queries, keys, and Rotary Position Embedding (RoPE), which jointly determine attention scores. Our empirical analysis reveals two characteristic conditions of SDHs: (1) Queries and keys are almost rank-one, and (2) RoPE is dominated by medium- and high-frequency components. Under these conditions, queries and keys are nearly identical across tokens, and interactions between medium- and high-frequency components of RoPE give rise to SDHs. Beyond empirical evidence, we theoretically show that these conditions are sufficient to ensure the emergence of SDHs by formalizing them as our modeling assumptions. Particularly, we analyze the training dynamics of a shallow Transformer equipped with RoPE under these conditions, and prove that models trained via gradient descent exhibit SDHs. The SDHs generalize to out-of-distribution prompts.

Demystificatie van het slash-patroon in aandacht: de rol van RoPE

Demystifying the Slash Pattern in Attention: The Role of RoPE

Samenvatting

Support