Detrás de RoPE: ¿Cómo Codifica la Máscara Causal la Información Posicional?

Resumen

Si bien las codificaciones posicionales explícitas como RoPE son una fuente principal de información posicional en los decodificadores de Transformers, la máscara causal también proporciona información posicional. En este trabajo, demostramos que la máscara causal puede inducir patrones dependientes de la posición en las puntuaciones de atención, incluso sin parámetros o dependencia causal en la entrada. Nuestro análisis teórico indica que el patrón de atención inducido tiende a favorecer pares de consulta-clave cercanos, reflejando el comportamiento de las codificaciones posicionales comunes. El análisis empírico confirma que los modelos entrenados exhiben el mismo comportamiento, con los parámetros aprendidos amplificando aún más estos patrones. En particular, descubrimos que la interacción entre la máscara causal y RoPE distorsiona los patrones de puntuación de atención relativa de RoPE en patrones no relativos. Observamos consistentemente este efecto en modelos de lenguaje grandes modernos, lo que sugiere la importancia de considerar la máscara causal como una fuente de información posicional junto con las codificaciones posicionales explícitas.

English

While explicit positional encodings such as RoPE are a primary source of positional information in Transformer decoders, the causal mask also provides positional information. In this work, we prove that the causal mask can induce position-dependent patterns in attention scores, even without parameters or causal dependency in the input. Our theoretical analysis indicates that the induced attention pattern tends to favor nearby query-key pairs, mirroring the behavior of common positional encodings. Empirical analysis confirms that trained models exhibit the same behavior, with learned parameters further amplifying these patterns. Notably, we found that the interaction of causal mask and RoPE distorts RoPE's relative attention score patterns into non-relative ones. We consistently observed this effect in modern large language models, suggesting the importance of considering the causal mask as a source of positional information alongside explicit positional encodings.

Detrás de RoPE: ¿Cómo Codifica la Máscara Causal la Información Posicional?

Behind RoPE: How Does Causal Mask Encode Positional Information?

Resumen

Support