グループ表現位置符号化
Group Representational Position Encoding
December 8, 2025
著者: Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
cs.AI
要旨
我々は、群作用に基づく位置符号化の統一フレームワークであるGRAPE(Group RepresentAtional Position Encoding)を提案する。GRAPEは二つのメカニズム群を統合する:(i) SO(d)における乗法的回転(乗法的GRAPE)と、(ii) 一般線形群GLにおける冪単作用から生じる加算的对数オフセット(加算的GRAPE)である。乗法的GRAPEでは、Z内の位置n(またはR内のt)がG(n)=exp(n,ω,L)として作用し、ランク2の歪対称生成子L ∈ R^{d×d}を用いて、閉形式の行列指数関数による相対的・合成的・ノルム保存的写像を生成する。d/2個の平面が対数一様スペクトルを持つ標準座標対である場合、RoPEは正確に再現される。学習可能な可換部分空間とコンパクトな非可換混合は、この幾何学を厳密に拡張し、ヘッドあたりそれぞれO(d)およびO(r d)のコストで部分空間間の特徴量結合を捕捉する。加算的GRAPEでは、ランク1(または低ランク)の冪単作用として加算的对数オフセットが生じ、ALiBiとForgetting Transformer(FoX)を正確な特殊ケースとして再現するとともに、厳密な相対性法則とストリーミングキャッシュ可能性を保持する。総じてGRAPEは、長文脈モデルにおける位置幾何学の原理的な設計空間を提供し、RoPEとALiBiを特殊ケースとして包含する。プロジェクトページ:https://github.com/model-architectures/GRAPE。
English
We present GRAPE (Group RepresentAtional Position Encoding), a unified framework for positional encoding based on group actions. GRAPE brings together two families of mechanisms: (i) multiplicative rotations (Multiplicative GRAPE) in SO(d) and (ii) additive logit biases (Additive GRAPE) arising from unipotent actions in the general linear group GL. In Multiplicative GRAPE, a position n in Z (or t in R) acts as G(n)=exp(n,ω,L) with a rank-2 skew generator L in R^{d times d}, yielding a relative, compositional, norm-preserving map with a closed-form matrix exponential. RoPE is recovered exactly when the d/2 planes are the canonical coordinate pairs with log-uniform spectrum. Learned commuting subspaces and compact non-commuting mixtures strictly extend this geometry to capture cross-subspace feature coupling at O(d) and O(r d) cost per head, respectively. In Additive GRAPE, additive logits arise as rank-1 (or low-rank) unipotent actions, recovering ALiBi and the Forgetting Transformer (FoX) as exact special cases while preserving an exact relative law and streaming cacheability. Altogether, GRAPE supplies a principled design space for positional geometry in long-context models, subsuming RoPE and ALiBi as special cases. Project Page: https://github.com/model-architectures/GRAPE.