SeqPE: Transformer con Codifica Posizionale Sequenziale

Abstract

Poiché i livelli di self-attention nei Transformer sono per progettazione invarianti alle permutazioni, è necessario incorporare esplicitamente codifiche posizionali per abilitare la comprensione spaziale. Tuttavia, le tabelle di ricerca a dimensione fissa utilizzate nei tradizionali embedding posizionali apprendibili (PE) limitano le capacità di estrapolazione oltre le lunghezze di sequenza pre-addestrate. Metodi progettati da esperti come ALiBi e RoPE mitigano questa limitazione, ma richiedono modifiche estese per adattarsi a nuove modalità, evidenziando sfide fondamentali in termini di adattabilità e scalabilità. In questo lavoro, presentiamo SeqPE, un framework unificato e completamente apprendibile per la codifica posizionale che rappresenta ogni indice posizionale n-dimensionale come una sequenza simbolica e impiega un codificatore posizionale sequenziale leggero per apprendere i loro embedding in modo end-to-end. Per regolarizzare lo spazio di embedding di SeqPE, introduciamo due obiettivi complementari: un obiettivo contrastivo che allinea le distanze di embedding con una funzione predefinita di distanza posizionale, e una perdita di distillazione della conoscenza che ancorizza gli embedding posizionali fuori distribuzione alle rappresentazioni insegnanti in distribuzione, migliorando ulteriormente le prestazioni di estrapolazione. Esperimenti su modellazione del linguaggio, risposta a domande a contesto lungo e classificazione di immagini 2D dimostrano che SeqPE non solo supera baseline robusti in termini di perplessità, corrispondenza esatta (EM) e accuratezza—specialmente sotto estrapolazione della lunghezza del contesto—ma consente anche una generalizzazione senza soluzione di continuità a input multidimensionali senza richiedere una riprogettazione manuale dell'architettura. Rilasciamo il nostro codice, dati e checkpoint su https://github.com/ghrua/seqpe.

English

Since self-attention layers in Transformers are permutation invariant by design, positional encodings must be explicitly incorporated to enable spatial understanding. However, fixed-size lookup tables used in traditional learnable position embeddings (PEs) limit extrapolation capabilities beyond pre-trained sequence lengths. Expert-designed methods such as ALiBi and RoPE, mitigate this limitation but demand extensive modifications for adapting to new modalities, underscoring fundamental challenges in adaptability and scalability. In this work, we present SeqPE, a unified and fully learnable position encoding framework that represents each n-dimensional position index as a symbolic sequence and employs a lightweight sequential position encoder to learn their embeddings in an end-to-end manner. To regularize SeqPE's embedding space, we introduce two complementary objectives: a contrastive objective that aligns embedding distances with a predefined position-distance function, and a knowledge distillation loss that anchors out-of-distribution position embeddings to in-distribution teacher representations, further enhancing extrapolation performance. Experiments across language modeling, long-context question answering, and 2D image classification demonstrate that SeqPE not only surpasses strong baselines in perplexity, exact match (EM), and accuracy--particularly under context length extrapolation--but also enables seamless generalization to multi-dimensional inputs without requiring manual architectural redesign. We release our code, data, and checkpoints at https://github.com/ghrua/seqpe.

SeqPE: Transformer con Codifica Posizionale Sequenziale

SeqPE: Transformer with Sequential Position Encoding

Abstract

Support