Por trás do RoPE: Como a Máscara Causal Codifica Informações Posicionais?
Behind RoPE: How Does Causal Mask Encode Positional Information?
September 25, 2025
Autores: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi
cs.AI
Resumo
Embora codificações posicionais explícitas, como o RoPE, sejam uma fonte primária de informação posicional em decodificadores Transformer, a máscara causal também fornece informações posicionais. Neste trabalho, demonstramos que a máscara causal pode induzir padrões dependentes de posição nos escores de atenção, mesmo sem parâmetros ou dependência causal na entrada. Nossa análise teórica indica que o padrão de atenção induzido tende a favorecer pares de consulta-chave próximos, refletindo o comportamento de codificações posicionais comuns. A análise empírica confirma que modelos treinados exibem o mesmo comportamento, com parâmetros aprendidos amplificando ainda mais esses padrões. Notavelmente, descobrimos que a interação entre a máscara causal e o RoPE distorce os padrões de escores de atenção relativa do RoPE em padrões não relativos. Observamos consistentemente esse efeito em modelos modernos de linguagem de grande escala, sugerindo a importância de considerar a máscara causal como uma fonte de informação posicional juntamente com codificações posicionais explícitas.
English
While explicit positional encodings such as RoPE are a primary source of
positional information in Transformer decoders, the causal mask also provides
positional information. In this work, we prove that the causal mask can induce
position-dependent patterns in attention scores, even without parameters or
causal dependency in the input. Our theoretical analysis indicates that the
induced attention pattern tends to favor nearby query-key pairs, mirroring the
behavior of common positional encodings. Empirical analysis confirms that
trained models exhibit the same behavior, with learned parameters further
amplifying these patterns. Notably, we found that the interaction of causal
mask and RoPE distorts RoPE's relative attention score patterns into
non-relative ones. We consistently observed this effect in modern large
language models, suggesting the importance of considering the causal mask as a
source of positional information alongside explicit positional encodings.