ChatPaper.aiChatPaper

Desmitificando el Patrón de Barra en la Atención: El Papel de RoPE

Demystifying the Slash Pattern in Attention: The Role of RoPE

January 13, 2026
Autores: Yuan Cheng, Fengzhuo Zhang, Yunlong Hou, Cunxiao Du, Chao Du, Tianyu Pang, Aixin Sun, Zhuoran Yang
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLM) a menudo exhiben patrones de atención en diagonal, donde las puntuaciones de atención se concentran a lo largo de la subdiagonal Δ-ésima para un determinado desplazamiento Δ. Estos patrones juegan un papel clave en la transmisión de información entre tokens. Pero, ¿por qué emergen? En este artículo, desentrañamos la emergencia de estas Cabezas de Atención en Diagonal (CAD) desde perspectivas tanto empíricas como teóricas. Primero, al analizar LLM de código abierto, encontramos que las CAD son intrínsecas a los modelos y se generalizan a prompts fuera de distribución. Para explicar la emergencia intrínseca, analizamos las consultas, las claves y el Embedding Posicional Rotatorio (RoPE), que determinan conjuntamente las puntuaciones de atención. Nuestro análisis empírico revela dos condiciones características de las CAD: (1) Las consultas y las claves son casi de rango uno, y (2) El RoPE está dominado por componentes de frecuencia media y alta. Bajo estas condiciones, las consultas y las claves son casi idénticas entre tokens, y las interacciones entre los componentes de frecuencia media y alta del RoPE dan lugar a las CAD. Más allá de la evidencia empírica, demostramos teóricamente que estas condiciones son suficientes para garantizar la emergencia de las CAD formalizándolas como nuestros supuestos de modelado. En particular, analizamos la dinámica de entrenamiento de un Transformer superficial equipado con RoPE bajo estas condiciones, y demostramos que los modelos entrenados mediante descenso de gradiente exhiben CAD. Las CAD se generalizan a prompts fuera de distribución.
English
Large Language Models (LLMs) often exhibit slash attention patterns, where attention scores concentrate along the Δ-th sub-diagonal for some offset Δ. These patterns play a key role in passing information across tokens. But why do they emerge? In this paper, we demystify the emergence of these Slash-Dominant Heads (SDHs) from both empirical and theoretical perspectives. First, by analyzing open-source LLMs, we find that SDHs are intrinsic to models and generalize to out-of-distribution prompts. To explain the intrinsic emergence, we analyze the queries, keys, and Rotary Position Embedding (RoPE), which jointly determine attention scores. Our empirical analysis reveals two characteristic conditions of SDHs: (1) Queries and keys are almost rank-one, and (2) RoPE is dominated by medium- and high-frequency components. Under these conditions, queries and keys are nearly identical across tokens, and interactions between medium- and high-frequency components of RoPE give rise to SDHs. Beyond empirical evidence, we theoretically show that these conditions are sufficient to ensure the emergence of SDHs by formalizing them as our modeling assumptions. Particularly, we analyze the training dynamics of a shallow Transformer equipped with RoPE under these conditions, and prove that models trained via gradient descent exhibit SDHs. The SDHs generalize to out-of-distribution prompts.
PDF11January 17, 2026