ChatPaper.aiChatPaper

За RoPE: Как маскирование причинности кодирует позиционную информацию?

Behind RoPE: How Does Causal Mask Encode Positional Information?

September 25, 2025
Авторы: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi
cs.AI

Аннотация

Хотя явные позиционные кодировки, такие как RoPE, являются основным источником позиционной информации в декодерах Transformer, причинная маска также предоставляет позиционную информацию. В данной работе мы доказываем, что причинная маска может вызывать позиционно-зависимые паттерны в оценках внимания, даже без параметров или причинной зависимости во входных данных. Наш теоретический анализ показывает, что индуцированный паттерн внимания склонен отдавать предпочтение близким парам запрос-ключ, отражая поведение распространённых позиционных кодировок. Эмпирический анализ подтверждает, что обученные модели демонстрируют такое же поведение, причём обученные параметры дополнительно усиливают эти паттерны. Примечательно, что мы обнаружили, что взаимодействие причинной маски и RoPE искажает относительные паттерны оценок внимания RoPE, превращая их в неотносительные. Мы последовательно наблюдали этот эффект в современных крупных языковых моделях, что подчеркивает важность рассмотрения причинной маски как источника позиционной информации наряду с явными позиционными кодировками.
English
While explicit positional encodings such as RoPE are a primary source of positional information in Transformer decoders, the causal mask also provides positional information. In this work, we prove that the causal mask can induce position-dependent patterns in attention scores, even without parameters or causal dependency in the input. Our theoretical analysis indicates that the induced attention pattern tends to favor nearby query-key pairs, mirroring the behavior of common positional encodings. Empirical analysis confirms that trained models exhibit the same behavior, with learned parameters further amplifying these patterns. Notably, we found that the interaction of causal mask and RoPE distorts RoPE's relative attention score patterns into non-relative ones. We consistently observed this effect in modern large language models, suggesting the importance of considering the causal mask as a source of positional information alongside explicit positional encodings.
PDF52September 26, 2025