Dietro RoPE: Come la Maschera Causale Codifica le Informazioni Posizionali?
Behind RoPE: How Does Causal Mask Encode Positional Information?
September 25, 2025
Autori: Junu Kim, Xiao Liu, Zhenghao Lin, Lei Ji, Yeyun Gong, Edward Choi
cs.AI
Abstract
Mentre le codifiche posizionali esplicite come RoPE rappresentano una fonte primaria di informazioni posizionali nei decoder Transformer, anche la maschera causale fornisce informazioni posizionali. In questo lavoro, dimostriamo che la maschera causale può indurre pattern dipendenti dalla posizione nei punteggi di attenzione, anche senza parametri o dipendenza causale nell'input. La nostra analisi teorica indica che il pattern di attenzione indotto tende a favorire coppie query-chiave vicine, rispecchiando il comportamento delle comuni codifiche posizionali. L'analisi empirica conferma che i modelli addestrati mostrano lo stesso comportamento, con i parametri appresi che amplificano ulteriormente questi pattern. In particolare, abbiamo scoperto che l'interazione tra la maschera causale e RoPE distorce i pattern relativi dei punteggi di attenzione di RoPE in pattern non relativi. Abbiamo osservato costantemente questo effetto nei moderni modelli linguistici di grandi dimensioni, suggerendo l'importanza di considerare la maschera causale come una fonte di informazioni posizionali insieme alle codifiche posizionali esplicite.
English
While explicit positional encodings such as RoPE are a primary source of
positional information in Transformer decoders, the causal mask also provides
positional information. In this work, we prove that the causal mask can induce
position-dependent patterns in attention scores, even without parameters or
causal dependency in the input. Our theoretical analysis indicates that the
induced attention pattern tends to favor nearby query-key pairs, mirroring the
behavior of common positional encodings. Empirical analysis confirms that
trained models exhibit the same behavior, with learned parameters further
amplifying these patterns. Notably, we found that the interaction of causal
mask and RoPE distorts RoPE's relative attention score patterns into
non-relative ones. We consistently observed this effect in modern large
language models, suggesting the importance of considering the causal mask as a
source of positional information alongside explicit positional encodings.