SeqPE: Transformer com Codificação Posicional Sequencial
SeqPE: Transformer with Sequential Position Encoding
June 16, 2025
Autores: Huyang Li, Yahui Liu, Hongyu Sun, Deng Cai, Leyang Cui, Wei Bi, Peilin Zhao, Taro Watanabe
cs.AI
Resumo
Como as camadas de auto-atenção nos Transformers são, por design, invariantes a permutações, codificações posicionais devem ser explicitamente incorporadas para permitir a compreensão espacial. No entanto, tabelas de consulta de tamanho fixo usadas em embeddings posicionais (PEs) tradicionais e aprendíveis limitam as capacidades de extrapolação além dos comprimentos de sequência pré-treinados. Métodos projetados por especialistas, como ALiBi e RoPE, mitigam essa limitação, mas exigem modificações extensas para se adaptarem a novas modalidades, destacando desafios fundamentais em adaptabilidade e escalabilidade. Neste trabalho, apresentamos o SeqPE, uma estrutura unificada e totalmente aprendível de codificação posicional que representa cada índice de posição n-dimensional como uma sequência simbólica e emprega um codificador posicional sequencial leve para aprender seus embeddings de ponta a ponta. Para regularizar o espaço de embedding do SeqPE, introduzimos dois objetivos complementares: um objetivo contrastivo que alinha as distâncias de embedding com uma função de distância posicional predefinida, e uma perda de destilação de conhecimento que ancora embeddings posicionais fora da distribuição a representações de professores dentro da distribuição, aprimorando ainda mais o desempenho de extrapolação. Experimentos em modelagem de linguagem, questionamento de contexto longo e classificação de imagens 2D demonstram que o SeqPE não apenas supera as linhas de base fortes em perplexidade, correspondência exata (EM) e precisão—particularmente sob extrapolação de comprimento de contexto—mas também permite generalização contínua para entradas multidimensionais sem exigir redesenho manual da arquitetura. Disponibilizamos nosso código, dados e checkpoints em https://github.com/ghrua/seqpe.
English
Since self-attention layers in Transformers are permutation invariant by
design, positional encodings must be explicitly incorporated to enable spatial
understanding. However, fixed-size lookup tables used in traditional learnable
position embeddings (PEs) limit extrapolation capabilities beyond pre-trained
sequence lengths. Expert-designed methods such as ALiBi and RoPE, mitigate this
limitation but demand extensive modifications for adapting to new modalities,
underscoring fundamental challenges in adaptability and scalability. In this
work, we present SeqPE, a unified and fully learnable position encoding
framework that represents each n-dimensional position index as a symbolic
sequence and employs a lightweight sequential position encoder to learn their
embeddings in an end-to-end manner. To regularize SeqPE's embedding space, we
introduce two complementary objectives: a contrastive objective that aligns
embedding distances with a predefined position-distance function, and a
knowledge distillation loss that anchors out-of-distribution position
embeddings to in-distribution teacher representations, further enhancing
extrapolation performance. Experiments across language modeling, long-context
question answering, and 2D image classification demonstrate that SeqPE not only
surpasses strong baselines in perplexity, exact match (EM), and
accuracy--particularly under context length extrapolation--but also enables
seamless generalization to multi-dimensional inputs without requiring manual
architectural redesign. We release our code, data, and checkpoints at
https://github.com/ghrua/seqpe.