Групповое позиционное кодирование представлений

Аннотация

Мы представляем GRAPE (Group RepresentAtional Position Encoding) — унифицированную систему позиционного кодирования, основанную на действиях групп. GRAPE объединяет два семейства механизмов: (i) мультипликативные вращения (Мультипликативный GRAPE) в SO(d) и (ii) аддитивные смещения логитов (Аддитивный GRAPE), возникающие из унипотентных действий в общей линейной группе GL. В Мультипликативном GRAPE позиция n в Z (или t в R) действует как G(n)=exp(n,ω,L) с кососимметрическим генератором ранга 2 L в R^{d×d}, порождая относительное, композиционное, сохраняющее норму отображение с матричной экспонентой в замкнутой форме. RoPE точно восстанавливается, когда d/2 плоскостей являются каноническими координатными парами с логарифмически-равномерным спектром. Обучаемые коммутирующие подпространства и компактные некоммутирующие смещения строго расширяют эту геометрию для захвата связи признаков между подпространствами со стоимостью O(d) и O(r d) на голову соответственно. В Аддитивном GRAPE аддитивные логиты возникают как унипотентные действия ранга 1 (или низкого ранга), точно воспроизводя ALiBi и Forgetting Transformer (FoX) как частные случаи, сохраняя точный относительный закон и возможность потокового кэширования. В целом, GRAPE предоставляет принципиальное пространство проектирования позиционной геометрии для моделей с длинным контекстом, включая RoPE и ALiBi как частные случаи. Страница проекта: https://github.com/model-architectures/GRAPE.

English

We present GRAPE (Group RepresentAtional Position Encoding), a unified framework for positional encoding based on group actions. GRAPE brings together two families of mechanisms: (i) multiplicative rotations (Multiplicative GRAPE) in SO(d) and (ii) additive logit biases (Additive GRAPE) arising from unipotent actions in the general linear group GL. In Multiplicative GRAPE, a position n in Z (or t in R) acts as G(n)=exp(n,ω,L) with a rank-2 skew generator L in R^{d times d}, yielding a relative, compositional, norm-preserving map with a closed-form matrix exponential. RoPE is recovered exactly when the d/2 planes are the canonical coordinate pairs with log-uniform spectrum. Learned commuting subspaces and compact non-commuting mixtures strictly extend this geometry to capture cross-subspace feature coupling at O(d) and O(r d) cost per head, respectively. In Additive GRAPE, additive logits arise as rank-1 (or low-rank) unipotent actions, recovering ALiBi and the Forgetting Transformer (FoX) as exact special cases while preserving an exact relative law and streaming cacheability. Altogether, GRAPE supplies a principled design space for positional geometry in long-context models, subsuming RoPE and ALiBi as special cases. Project Page: https://github.com/model-architectures/GRAPE.

Групповое позиционное кодирование представлений

Group Representational Position Encoding

Аннотация

Support