그룹 표현 위치 인코딩
Group Representational Position Encoding
December 8, 2025
저자: Yifan Zhang, Zixiang Chen, Yifeng Liu, Zhen Qin, Huizhuo Yuan, Kangping Xu, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
cs.AI
초록
우리는 군 작용(group action)에 기반한 위치 인코딩의 통합 프레임워크인 GRAPE(Group RepresentAtional Position Encoding)를 제안한다. GRAPE는 두 가지 메커니즘 계열을 통합한다: (i) SO(d)에서의 곱셈적 회전(Multiplicative GRAPE)과 (ii) 일반 선형군 GL 내 단일순(unipotent) 작용에서 비롯된 가법적 로짓 바이어스(Additive GRAPE). Multiplicative GRAPE에서 Z 내 위치 n(또는 R 내 t)은 순위-2 반대칭 생성자 L ∈ R^{d × d}를 사용하여 G(n)=exp(n,ω,L)로 작용하며, 닫힌 형태의 행렬 지수 함수를 갖는 상대적, 구성적, 놈 보존적 매핑을 생성한다. d/2 개의 평면이 로그 균일 스펙트럼을 갖는 표준 좌표 쌍일 때 RoPE가 정확히 복원된다. 학습된 교환 부분공간과 컴팩트한 비교환 혼합은 이 기하구조를 엄격하게 확장하여 각각 헤드당 O(d) 및 O(r d)의 비용으로 부분공간 간 특징 결합을 포착한다. Additive GRAPE에서는 순위-1(또는 낮은 순위) 단일순 작용으로서 가법적 로짓이 발생하며, 정확한 상대성 법칙과 스트리밍 캐시 가능성을 보존하면서 ALiBi와 Forgetting Transformer(FoX)를 정확한 특수 사례로 복원한다. 전체적으로 GRAPE는 장문맥 모델에서 위치 기하구조를 위한 원칙적인 설계 공간을 제공하며, RoPE와 ALiBi를 특수 사례로 포괄한다. 프로젝트 페이지: https://github.com/model-architectures/GRAPE.
English
We present GRAPE (Group RepresentAtional Position Encoding), a unified framework for positional encoding based on group actions. GRAPE brings together two families of mechanisms: (i) multiplicative rotations (Multiplicative GRAPE) in SO(d) and (ii) additive logit biases (Additive GRAPE) arising from unipotent actions in the general linear group GL. In Multiplicative GRAPE, a position n in Z (or t in R) acts as G(n)=exp(n,ω,L) with a rank-2 skew generator L in R^{d times d}, yielding a relative, compositional, norm-preserving map with a closed-form matrix exponential. RoPE is recovered exactly when the d/2 planes are the canonical coordinate pairs with log-uniform spectrum. Learned commuting subspaces and compact non-commuting mixtures strictly extend this geometry to capture cross-subspace feature coupling at O(d) and O(r d) cost per head, respectively. In Additive GRAPE, additive logits arise as rank-1 (or low-rank) unipotent actions, recovering ALiBi and the Forgetting Transformer (FoX) as exact special cases while preserving an exact relative law and streaming cacheability. Altogether, GRAPE supplies a principled design space for positional geometry in long-context models, subsuming RoPE and ALiBi as special cases. Project Page: https://github.com/model-architectures/GRAPE.