ChatPaper.aiChatPaper

Codificación de Posición Representacional de Grupos

Group Representational Position Encoding

December 8, 2025
Autores: Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
cs.AI

Resumen

Presentamos GRAPE (Group RepresentAtional Position Encoding), un marco unificado para la codificación posicional basado en acciones de grupo. GRAPE reúne dos familias de mecanismos: (i) rotaciones multiplicativas (GRAPE Multiplicativo) en SO(d) y (ii) sesgos aditivos en los logits (GRAPE Aditivo) que surgen de acciones unipotentes en el grupo lineal general GL. En GRAPE Multiplicativo, una posición n en Z (o t en R) actúa como G(n)=exp(n,ω,L) con un generador sesgado de rango 2, L en R^{d x d}, produciendo un mapa relacional, compositivo y que preserva la norma con una exponencial matricial de forma cerrada. RoPE se recupera exactamente cuando los d/2 planos son los pares de coordenadas canónicas con espectro log-uniforme. Los subespacios conmutativos aprendidos y las mezclas compactas no conmutativas extienden estrictamente esta geometría para capturar el acoplamiento de características entre subespacios con un coste por cabeza de O(d) y O(r d), respectivamente. En GRAPE Aditivo, los logits aditivos surgen como acciones unipotentes de rango 1 (o de rango bajo), recuperando ALiBi y el Forgetting Transformer (FoX) como casos especiales exactos, a la vez que se preserva una ley relacional exacta y la capacidad de almacenamiento en caché para streaming. En conjunto, GRAPE proporciona un espacio de diseño fundamentado para la geometría posicional en modelos de contexto largo, englobando a RoPE y ALiBi como casos particulares. Página del proyecto: https://github.com/model-architectures/GRAPE.
English
We present GRAPE (Group RepresentAtional Position Encoding), a unified framework for positional encoding based on group actions. GRAPE brings together two families of mechanisms: (i) multiplicative rotations (Multiplicative GRAPE) in SO(d) and (ii) additive logit biases (Additive GRAPE) arising from unipotent actions in the general linear group GL. In Multiplicative GRAPE, a position n in Z (or t in R) acts as G(n)=exp(n,ω,L) with a rank-2 skew generator L in R^{d times d}, yielding a relative, compositional, norm-preserving map with a closed-form matrix exponential. RoPE is recovered exactly when the d/2 planes are the canonical coordinate pairs with log-uniform spectrum. Learned commuting subspaces and compact non-commuting mixtures strictly extend this geometry to capture cross-subspace feature coupling at O(d) and O(r d) cost per head, respectively. In Additive GRAPE, additive logits arise as rank-1 (or low-rank) unipotent actions, recovering ALiBi and the Forgetting Transformer (FoX) as exact special cases while preserving an exact relative law and streaming cacheability. Altogether, GRAPE supplies a principled design space for positional geometry in long-context models, subsuming RoPE and ALiBi as special cases. Project Page: https://github.com/model-architectures/GRAPE.
PDF32December 10, 2025