SeqPE: Transformer mit sequenzieller Positionskodierung
SeqPE: Transformer with Sequential Position Encoding
June 16, 2025
Autoren: Huyang Li, Yahui Liu, Hongyu Sun, Deng Cai, Leyang Cui, Wei Bi, Peilin Zhao, Taro Watanabe
cs.AI
Zusammenfassung
Da Selbstaufmerksamkeitsschichten in Transformern per Design permutationsinvariant sind, müssen Positionskodierungen explizit eingebunden werden, um ein räumliches Verständnis zu ermöglichen. Allerdings begrenzen feste Lookup-Tabellen, die in traditionellen lernbaren Positions-Einbettungen (PEs) verwendet werden, die Extrapolationsfähigkeiten über vorher trainierte Sequenzlängen hinaus. Expertenentworfene Methoden wie ALiBi und RoPE mildern diese Einschränkung, erfordern jedoch umfangreiche Anpassungen, um sich an neue Modalitäten anzupassen, was grundlegende Herausforderungen in Bezug auf Anpassungsfähigkeit und Skalierbarkeit unterstreicht. In dieser Arbeit präsentieren wir SeqPE, ein einheitliches und vollständig lernbares Positionskodierungs-Framework, das jeden n-dimensionalen Positionsindex als symbolische Sequenz darstellt und einen leichtgewichtigen sequenziellen Positionskodierer verwendet, um deren Einbettungen end-to-end zu lernen. Um den Einbettungsraum von SeqPE zu regularisieren, führen wir zwei komplementäre Ziele ein: ein kontrastives Ziel, das Einbettungsabstände mit einer vordefinierten Positions-Distanz-Funktion ausrichtet, und einen Wissensdistillationsverlust, der Out-of-Distribution-Positions-Einbettungen an In-Distribution-Lehrerrepräsentationen anbindet, was die Extrapolationsleistung weiter verbessert. Experimente in den Bereichen Sprachmodellierung, langkontextbezogene Fragebeantwortung und 2D-Bildklassifizierung zeigen, dass SeqPE nicht nur starke Baselines in Bezug auf Perplexität, exakte Übereinstimmung (EM) und Genauigkeit übertrifft – insbesondere bei der Extrapolation der Kontextlänge – sondern auch eine nahtlose Generalisierung auf mehrdimensionale Eingaben ermöglicht, ohne dass eine manuelle architektonische Neugestaltung erforderlich ist. Wir veröffentlichen unseren Code, Daten und Checkpoints unter https://github.com/ghrua/seqpe.
English
Since self-attention layers in Transformers are permutation invariant by
design, positional encodings must be explicitly incorporated to enable spatial
understanding. However, fixed-size lookup tables used in traditional learnable
position embeddings (PEs) limit extrapolation capabilities beyond pre-trained
sequence lengths. Expert-designed methods such as ALiBi and RoPE, mitigate this
limitation but demand extensive modifications for adapting to new modalities,
underscoring fundamental challenges in adaptability and scalability. In this
work, we present SeqPE, a unified and fully learnable position encoding
framework that represents each n-dimensional position index as a symbolic
sequence and employs a lightweight sequential position encoder to learn their
embeddings in an end-to-end manner. To regularize SeqPE's embedding space, we
introduce two complementary objectives: a contrastive objective that aligns
embedding distances with a predefined position-distance function, and a
knowledge distillation loss that anchors out-of-distribution position
embeddings to in-distribution teacher representations, further enhancing
extrapolation performance. Experiments across language modeling, long-context
question answering, and 2D image classification demonstrate that SeqPE not only
surpasses strong baselines in perplexity, exact match (EM), and
accuracy--particularly under context length extrapolation--but also enables
seamless generalization to multi-dimensional inputs without requiring manual
architectural redesign. We release our code, data, and checkpoints at
https://github.com/ghrua/seqpe.