ChatPaper.aiChatPaper

Por trás do RoPE: Como a Máscara Causal Codifica Informações Posicionais?

Behind RoPE: How Does Causal Mask Encode Positional Information?

September 25, 2025
Autores: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi
cs.AI

Resumo

Embora codificações posicionais explícitas, como o RoPE, sejam uma fonte primária de informação posicional em decodificadores Transformer, a máscara causal também fornece informações posicionais. Neste trabalho, demonstramos que a máscara causal pode induzir padrões dependentes de posição nos escores de atenção, mesmo sem parâmetros ou dependência causal na entrada. Nossa análise teórica indica que o padrão de atenção induzido tende a favorecer pares de consulta-chave próximos, refletindo o comportamento de codificações posicionais comuns. A análise empírica confirma que modelos treinados exibem o mesmo comportamento, com parâmetros aprendidos amplificando ainda mais esses padrões. Notavelmente, descobrimos que a interação entre a máscara causal e o RoPE distorce os padrões de escores de atenção relativa do RoPE em padrões não relativos. Observamos consistentemente esse efeito em modelos modernos de linguagem de grande escala, sugerindo a importância de considerar a máscara causal como uma fonte de informação posicional juntamente com codificações posicionais explícitas.
English
While explicit positional encodings such as RoPE are a primary source of positional information in Transformer decoders, the causal mask also provides positional information. In this work, we prove that the causal mask can induce position-dependent patterns in attention scores, even without parameters or causal dependency in the input. Our theoretical analysis indicates that the induced attention pattern tends to favor nearby query-key pairs, mirroring the behavior of common positional encodings. Empirical analysis confirms that trained models exhibit the same behavior, with learned parameters further amplifying these patterns. Notably, we found that the interaction of causal mask and RoPE distorts RoPE's relative attention score patterns into non-relative ones. We consistently observed this effect in modern large language models, suggesting the importance of considering the causal mask as a source of positional information alongside explicit positional encodings.
PDF82September 26, 2025