ChatPaper.aiChatPaper

Codificação de Posição Representacional de Grupo

Group Representational Position Encoding

December 8, 2025
Autores: Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
cs.AI

Resumo

Apresentamos o GRAPE (Group RepresentAtional Position Encoding), uma estrutura unificada para codificação posicional baseada em ações de grupo. O GRAPE reúne duas famílias de mecanismos: (i) rotações multiplicativas (GRAPE Multiplicativo) em SO(d) e (ii) vieses *logit* aditivos (GRAPE Aditivo) decorrentes de ações unipotentes no grupo linear geral GL. No GRAPE Multiplicativo, uma posição n em Z (ou t em R) atua como G(n)=exp(n,ω,L) com um gerador simétrico de posto 2, L em R^{d x d}, produzindo um mapa relacional, composicional e de norma preservada com uma exponencial matricial de forma fechada. O RoPE é recuperado exatamente quando os d/2 planos são os pares de coordenadas canônicas com espectro log-uniforme. Subespaços comutativos aprendidos e misturas compactas não comutativas estendem estritamente esta geometria para capturar o acoplamento de características entre subespaços a um custo de O(d) e O(r d) por cabeça, respectivamente. No GRAPE Aditivo, os *logits* aditivos surgem como ações unipotentes de posto 1 (ou de posto baixo), recuperando o ALiBi e o Forgetting Transformer (FoX) como casos especiais exatos, preservando ao mesmo tempo uma lei relacional exata e a capacidade de *caching* em *streaming*. No geral, o GRAPE fornece um espaço de projeto fundamentado para a geometria posicional em modelos de contexto longo, englobando o RoPE e o ALiBi como casos especiais. Página do Projeto: https://github.com/model-architectures/GRAPE.
English
We present GRAPE (Group RepresentAtional Position Encoding), a unified framework for positional encoding based on group actions. GRAPE brings together two families of mechanisms: (i) multiplicative rotations (Multiplicative GRAPE) in SO(d) and (ii) additive logit biases (Additive GRAPE) arising from unipotent actions in the general linear group GL. In Multiplicative GRAPE, a position n in Z (or t in R) acts as G(n)=exp(n,ω,L) with a rank-2 skew generator L in R^{d times d}, yielding a relative, compositional, norm-preserving map with a closed-form matrix exponential. RoPE is recovered exactly when the d/2 planes are the canonical coordinate pairs with log-uniform spectrum. Learned commuting subspaces and compact non-commuting mixtures strictly extend this geometry to capture cross-subspace feature coupling at O(d) and O(r d) cost per head, respectively. In Additive GRAPE, additive logits arise as rank-1 (or low-rank) unipotent actions, recovering ALiBi and the Forgetting Transformer (FoX) as exact special cases while preserving an exact relative law and streaming cacheability. Altogether, GRAPE supplies a principled design space for positional geometry in long-context models, subsuming RoPE and ALiBi as special cases. Project Page: https://github.com/model-architectures/GRAPE.
PDF52February 7, 2026