Hinter RoPE: Wie kodiert die kausale Maske Positionsinformationen?
Behind RoPE: How Does Causal Mask Encode Positional Information?
September 25, 2025
papers.authors: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi
cs.AI
papers.abstract
Während explizite Positionskodierungen wie RoPE eine primäre Quelle für Positionsinformationen in Transformer-Decodern sind, liefert auch die kausale Maske Positionsinformationen. In dieser Arbeit beweisen wir, dass die kausale Maske positionsabhängige Muster in den Aufmerksamkeitswerten induzieren kann, selbst ohne Parameter oder kausale Abhängigkeiten im Eingabedaten. Unsere theoretische Analyse zeigt, dass das induzierte Aufmerksamkeitsmuster dazu neigt, nahe gelegene Query-Key-Paare zu bevorzugen, was das Verhalten gängiger Positionskodierungen widerspiegelt. Empirische Analysen bestätigen, dass trainierte Modelle dasselbe Verhalten aufweisen, wobei gelernte Parameter diese Muster weiter verstärken. Bemerkenswerterweise fanden wir heraus, dass die Interaktion zwischen kausaler Maske und RoPE die relativen Aufmerksamkeitswertmuster von RoPE in nicht-relative Muster verzerrt. Diesen Effekt haben wir konsistent in modernen großen Sprachmodellen beobachtet, was die Bedeutung unterstreicht, die kausale Maske neben expliziten Positionskodierungen als Quelle für Positionsinformationen zu betrachten.
English
While explicit positional encodings such as RoPE are a primary source of
positional information in Transformer decoders, the causal mask also provides
positional information. In this work, we prove that the causal mask can induce
position-dependent patterns in attention scores, even without parameters or
causal dependency in the input. Our theoretical analysis indicates that the
induced attention pattern tends to favor nearby query-key pairs, mirroring the
behavior of common positional encodings. Empirical analysis confirms that
trained models exhibit the same behavior, with learned parameters further
amplifying these patterns. Notably, we found that the interaction of causal
mask and RoPE distorts RoPE's relative attention score patterns into
non-relative ones. We consistently observed this effect in modern large
language models, suggesting the importance of considering the causal mask as a
source of positional information alongside explicit positional encodings.