SeqPE: Transformer con Codifica Posizionale Sequenziale
SeqPE: Transformer with Sequential Position Encoding
June 16, 2025
Autori: Huyang Li, Yahui Liu, Hongyu Sun, Deng Cai, Leyang Cui, Wei Bi, Peilin Zhao, Taro Watanabe
cs.AI
Abstract
Poiché i livelli di self-attention nei Transformer sono per progettazione invarianti alle permutazioni, è necessario incorporare esplicitamente codifiche posizionali per abilitare la comprensione spaziale. Tuttavia, le tabelle di ricerca a dimensione fissa utilizzate nei tradizionali embedding posizionali apprendibili (PE) limitano le capacità di estrapolazione oltre le lunghezze di sequenza pre-addestrate. Metodi progettati da esperti come ALiBi e RoPE mitigano questa limitazione, ma richiedono modifiche estese per adattarsi a nuove modalità, evidenziando sfide fondamentali in termini di adattabilità e scalabilità. In questo lavoro, presentiamo SeqPE, un framework unificato e completamente apprendibile per la codifica posizionale che rappresenta ogni indice posizionale n-dimensionale come una sequenza simbolica e impiega un codificatore posizionale sequenziale leggero per apprendere i loro embedding in modo end-to-end. Per regolarizzare lo spazio di embedding di SeqPE, introduciamo due obiettivi complementari: un obiettivo contrastivo che allinea le distanze di embedding con una funzione predefinita di distanza posizionale, e una perdita di distillazione della conoscenza che ancorizza gli embedding posizionali fuori distribuzione alle rappresentazioni insegnanti in distribuzione, migliorando ulteriormente le prestazioni di estrapolazione. Esperimenti su modellazione del linguaggio, risposta a domande a contesto lungo e classificazione di immagini 2D dimostrano che SeqPE non solo supera baseline robusti in termini di perplessità, corrispondenza esatta (EM) e accuratezza—specialmente sotto estrapolazione della lunghezza del contesto—ma consente anche una generalizzazione senza soluzione di continuità a input multidimensionali senza richiedere una riprogettazione manuale dell'architettura. Rilasciamo il nostro codice, dati e checkpoint su https://github.com/ghrua/seqpe.
English
Since self-attention layers in Transformers are permutation invariant by
design, positional encodings must be explicitly incorporated to enable spatial
understanding. However, fixed-size lookup tables used in traditional learnable
position embeddings (PEs) limit extrapolation capabilities beyond pre-trained
sequence lengths. Expert-designed methods such as ALiBi and RoPE, mitigate this
limitation but demand extensive modifications for adapting to new modalities,
underscoring fundamental challenges in adaptability and scalability. In this
work, we present SeqPE, a unified and fully learnable position encoding
framework that represents each n-dimensional position index as a symbolic
sequence and employs a lightweight sequential position encoder to learn their
embeddings in an end-to-end manner. To regularize SeqPE's embedding space, we
introduce two complementary objectives: a contrastive objective that aligns
embedding distances with a predefined position-distance function, and a
knowledge distillation loss that anchors out-of-distribution position
embeddings to in-distribution teacher representations, further enhancing
extrapolation performance. Experiments across language modeling, long-context
question answering, and 2D image classification demonstrate that SeqPE not only
surpasses strong baselines in perplexity, exact match (EM), and
accuracy--particularly under context length extrapolation--but also enables
seamless generalization to multi-dimensional inputs without requiring manual
architectural redesign. We release our code, data, and checkpoints at
https://github.com/ghrua/seqpe.