Codifica Posizionale Rappresentativa di Gruppo
Group Representational Position Encoding
December 8, 2025
Autori: Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
cs.AI
Abstract
Presentiamo GRAPE (Group RepresentAtional Position Encoding), un framework unificato per la codifica posizionale basata su azioni di gruppo. GRAPE riunisce due famiglie di meccanismi: (i) rotazioni moltiplicative (GRAPE Moltiplicativo) in SO(d) e (ii) bias additivi sui logit (GRAPE Additivo) derivanti da azioni unipotenti nel gruppo lineare generale GL. In GRAPE Moltiplicativo, una posizione n in Z (o t in R) agisce come G(n)=exp(n,ω,L) con un generatore skew di rango-2 L in R^{d × d}, producendo una mappa relativa, composizionale e norm-preserving con un'esponenziale di matrice in forma chiusa. RoPE viene recuperata esattamente quando i piani d/2 sono le coppie di coordinate canoniche con spettro log-uniforme. Sottospazi commutativi appresi e miscele compatte non commutative estendono rigorosamente questa geometria per catturare l'accoppiamento di feature tra sottospazi con un costo per testa di O(d) e O(r d), rispettivamente. In GRAPE Additivo, i logit additivi sorgono come azioni unipotenti di rango-1 (o basso rango), recuperando ALiBi e il Forgetting Transformer (FoX) come casi speciali esatti, preservando al contempo una legge relativa esatta e la cacheabilità in streaming. Nel complesso, GRAPE fornisce uno spazio di progettazione principiato per la geometria posizionale in modelli a contesto lungo, includendo come casi speciali RoPE e ALiBi. Pagina del progetto: https://github.com/model-architectures/GRAPE.
English
We present GRAPE (Group RepresentAtional Position Encoding), a unified framework for positional encoding based on group actions. GRAPE brings together two families of mechanisms: (i) multiplicative rotations (Multiplicative GRAPE) in SO(d) and (ii) additive logit biases (Additive GRAPE) arising from unipotent actions in the general linear group GL. In Multiplicative GRAPE, a position n in Z (or t in R) acts as G(n)=exp(n,ω,L) with a rank-2 skew generator L in R^{d times d}, yielding a relative, compositional, norm-preserving map with a closed-form matrix exponential. RoPE is recovered exactly when the d/2 planes are the canonical coordinate pairs with log-uniform spectrum. Learned commuting subspaces and compact non-commuting mixtures strictly extend this geometry to capture cross-subspace feature coupling at O(d) and O(r d) cost per head, respectively. In Additive GRAPE, additive logits arise as rank-1 (or low-rank) unipotent actions, recovering ALiBi and the Forgetting Transformer (FoX) as exact special cases while preserving an exact relative law and streaming cacheability. Altogether, GRAPE supplies a principled design space for positional geometry in long-context models, subsuming RoPE and ALiBi as special cases. Project Page: https://github.com/model-architectures/GRAPE.