SeqPE : Transformer avec encodage positionnel séquentiel
SeqPE: Transformer with Sequential Position Encoding
June 16, 2025
Auteurs: Huyang Li, Yahui Liu, Hongyu Sun, Deng Cai, Leyang Cui, Wei Bi, Peilin Zhao, Taro Watanabe
cs.AI
Résumé
Comme les couches d'auto-attention dans les Transformers sont par conception invariantes aux permutations, des encodages positionnels doivent être explicitement incorporés pour permettre une compréhension spatiale. Cependant, les tables de recherche de taille fixe utilisées dans les embeddings positionnels (PE) traditionnels apprenables limitent les capacités d'extrapolation au-delà des longueurs de séquences pré-entraînées. Des méthodes conçues par des experts, telles que ALiBi et RoPE, atténuent cette limitation mais nécessitent des modifications importantes pour s'adapter à de nouvelles modalités, mettant en lumière des défis fondamentaux en matière d'adaptabilité et de scalabilité. Dans ce travail, nous présentons SeqPE, un framework unifié et entièrement apprenable d'encodage positionnel qui représente chaque indice de position n-dimensionnel comme une séquence symbolique et utilise un encodeur positionnel séquentiel léger pour apprendre leurs embeddings de manière end-to-end. Pour régulariser l'espace d'embedding de SeqPE, nous introduisons deux objectifs complémentaires : un objectif contrastif qui aligne les distances d'embedding avec une fonction de distance positionnelle prédéfinie, et une perte de distillation de connaissances qui ancre les embeddings positionnels hors distribution à des représentations enseignantes en distribution, améliorant ainsi les performances d'extrapolation. Les expériences menées sur la modélisation du langage, la réponse à des questions en contexte long et la classification d'images 2D démontrent que SeqPE dépasse non seulement les baselines solides en termes de perplexité, de correspondance exacte (EM) et de précision—particulièrement sous extrapolation de longueur de contexte—mais permet également une généralisation fluide aux entrées multidimensionnelles sans nécessiter de redéfinition manuelle de l'architecture. Nous publions notre code, nos données et nos checkpoints à l'adresse https://github.com/ghrua/seqpe.
English
Since self-attention layers in Transformers are permutation invariant by
design, positional encodings must be explicitly incorporated to enable spatial
understanding. However, fixed-size lookup tables used in traditional learnable
position embeddings (PEs) limit extrapolation capabilities beyond pre-trained
sequence lengths. Expert-designed methods such as ALiBi and RoPE, mitigate this
limitation but demand extensive modifications for adapting to new modalities,
underscoring fundamental challenges in adaptability and scalability. In this
work, we present SeqPE, a unified and fully learnable position encoding
framework that represents each n-dimensional position index as a symbolic
sequence and employs a lightweight sequential position encoder to learn their
embeddings in an end-to-end manner. To regularize SeqPE's embedding space, we
introduce two complementary objectives: a contrastive objective that aligns
embedding distances with a predefined position-distance function, and a
knowledge distillation loss that anchors out-of-distribution position
embeddings to in-distribution teacher representations, further enhancing
extrapolation performance. Experiments across language modeling, long-context
question answering, and 2D image classification demonstrate that SeqPE not only
surpasses strong baselines in perplexity, exact match (EM), and
accuracy--particularly under context length extrapolation--but also enables
seamless generalization to multi-dimensional inputs without requiring manual
architectural redesign. We release our code, data, and checkpoints at
https://github.com/ghrua/seqpe.