Desmistificando o Padrão de Barra na Atenção: O Papel do RoPE

Resumo

Os Grandes Modelos de Linguagem (LLMs) frequentemente exibem padrões de atenção em barra (slash), nos quais os escores de atenção se concentram ao longo da subdiagonal Δ para um determinado deslocamento Δ. Esses padrões desempenham um papel fundamental na transmissão de informações entre os tokens. Mas por que eles emergem? Neste artigo, desmistificamos o surgimento desses Cabeças de Atenção Dominante em Barra (SDHs) a partir de perspectivas empíricas e teóricas. Primeiro, ao analisar LLMs de código aberto, descobrimos que os SDHs são intrínsecos aos modelos e generalizam para *prompts* fora da distribuição. Para explicar o surgimento intrínseco, analisamos as consultas (*queries*), chaves (*keys*) e o *Rotary Position Embedding* (RoPE), que determinam conjuntamente os escores de atenção. Nossa análise empírica revela duas condições características dos SDHs: (1) As consultas e chaves são quase de posto um (*rank-one*), e (2) O RoPE é dominado por componentes de média e alta frequência. Sob essas condições, as consultas e chaves são quase idênticas entre os tokens, e as interações entre os componentes de média e alta frequência do RoPE dão origem aos SDHs. Além das evidências empíricas, mostramos teoricamente que essas condições são suficientes para garantir o surgimento dos SDHs, formalizando-as como nossas premissas de modelagem. Especificamente, analisamos a dinâmica de treinamento de um Transformer raso equipado com RoPE sob essas condições e provamos que os modelos treinados via gradiente descendente exibem SDHs. Os SDHs generalizam para *prompts* fora da distribuição.

English

Large Language Models (LLMs) often exhibit slash attention patterns, where attention scores concentrate along the Δ-th sub-diagonal for some offset Δ. These patterns play a key role in passing information across tokens. But why do they emerge? In this paper, we demystify the emergence of these Slash-Dominant Heads (SDHs) from both empirical and theoretical perspectives. First, by analyzing open-source LLMs, we find that SDHs are intrinsic to models and generalize to out-of-distribution prompts. To explain the intrinsic emergence, we analyze the queries, keys, and Rotary Position Embedding (RoPE), which jointly determine attention scores. Our empirical analysis reveals two characteristic conditions of SDHs: (1) Queries and keys are almost rank-one, and (2) RoPE is dominated by medium- and high-frequency components. Under these conditions, queries and keys are nearly identical across tokens, and interactions between medium- and high-frequency components of RoPE give rise to SDHs. Beyond empirical evidence, we theoretically show that these conditions are sufficient to ensure the emergence of SDHs by formalizing them as our modeling assumptions. Particularly, we analyze the training dynamics of a shallow Transformer equipped with RoPE under these conditions, and prove that models trained via gradient descent exhibit SDHs. The SDHs generalize to out-of-distribution prompts.

Desmistificando o Padrão de Barra na Atenção: O Papel do RoPE

Demystifying the Slash Pattern in Attention: The Role of RoPE

Resumo

Support