Detrás de RoPE: ¿Cómo Codifica la Máscara Causal la Información Posicional?
Behind RoPE: How Does Causal Mask Encode Positional Information?
September 25, 2025
Autores: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi
cs.AI
Resumen
Si bien las codificaciones posicionales explícitas como RoPE son una fuente principal de información posicional en los decodificadores de Transformers, la máscara causal también proporciona información posicional. En este trabajo, demostramos que la máscara causal puede inducir patrones dependientes de la posición en las puntuaciones de atención, incluso sin parámetros o dependencia causal en la entrada. Nuestro análisis teórico indica que el patrón de atención inducido tiende a favorecer pares de consulta-clave cercanos, reflejando el comportamiento de las codificaciones posicionales comunes. El análisis empírico confirma que los modelos entrenados exhiben el mismo comportamiento, con los parámetros aprendidos amplificando aún más estos patrones. En particular, descubrimos que la interacción entre la máscara causal y RoPE distorsiona los patrones de puntuación de atención relativa de RoPE en patrones no relativos. Observamos consistentemente este efecto en modelos de lenguaje grandes modernos, lo que sugiere la importancia de considerar la máscara causal como una fuente de información posicional junto con las codificaciones posicionales explícitas.
English
While explicit positional encodings such as RoPE are a primary source of
positional information in Transformer decoders, the causal mask also provides
positional information. In this work, we prove that the causal mask can induce
position-dependent patterns in attention scores, even without parameters or
causal dependency in the input. Our theoretical analysis indicates that the
induced attention pattern tends to favor nearby query-key pairs, mirroring the
behavior of common positional encodings. Empirical analysis confirms that
trained models exhibit the same behavior, with learned parameters further
amplifying these patterns. Notably, we found that the interaction of causal
mask and RoPE distorts RoPE's relative attention score patterns into
non-relative ones. We consistently observed this effect in modern large
language models, suggesting the importance of considering the causal mask as a
source of positional information alongside explicit positional encodings.