SeqPE: Transformador con Codificación de Posición Secuencial
SeqPE: Transformer with Sequential Position Encoding
June 16, 2025
Autores: Huyang Li, Yahui Liu, Hongyu Sun, Deng Cai, Leyang Cui, Wei Bi, Peilin Zhao, Taro Watanabe
cs.AI
Resumen
Dado que las capas de auto-atención en los Transformers son intrínsecamente invariantes a permutaciones, es necesario incorporar explícitamente codificaciones posicionales para permitir la comprensión espacial. Sin embargo, las tablas de búsqueda de tamaño fijo utilizadas en las codificaciones posicionales (PE) aprendibles tradicionales limitan la capacidad de extrapolación más allá de las longitudes de secuencia preentrenadas. Métodos diseñados por expertos, como ALiBi y RoPE, mitigan esta limitación, pero requieren modificaciones extensas para adaptarse a nuevas modalidades, lo que subraya desafíos fundamentales en adaptabilidad y escalabilidad. En este trabajo, presentamos SeqPE, un marco unificado y completamente aprendible de codificación posicional que representa cada índice de posición n-dimensional como una secuencia simbólica y emplea un codificador posicional secuencial ligero para aprender sus representaciones de manera end-to-end. Para regularizar el espacio de representación de SeqPE, introducimos dos objetivos complementarios: un objetivo contrastivo que alinea las distancias de las representaciones con una función de distancia posicional predefinida, y una pérdida de destilación de conocimiento que ancla las representaciones posicionales fuera de distribución a representaciones de un profesor dentro de distribución, mejorando aún más el rendimiento de extrapolación. Los experimentos en modelado de lenguaje, respuestas a preguntas de contexto largo y clasificación de imágenes 2D demuestran que SeqPE no solo supera a las líneas base fuertes en perplejidad, coincidencia exacta (EM) y precisión—especialmente en la extrapolación de longitud de contexto—sino que también permite una generalización fluida a entradas multidimensionales sin requerir rediseños arquitectónicos manuales. Publicamos nuestro código, datos y puntos de control en https://github.com/ghrua/seqpe.
English
Since self-attention layers in Transformers are permutation invariant by
design, positional encodings must be explicitly incorporated to enable spatial
understanding. However, fixed-size lookup tables used in traditional learnable
position embeddings (PEs) limit extrapolation capabilities beyond pre-trained
sequence lengths. Expert-designed methods such as ALiBi and RoPE, mitigate this
limitation but demand extensive modifications for adapting to new modalities,
underscoring fundamental challenges in adaptability and scalability. In this
work, we present SeqPE, a unified and fully learnable position encoding
framework that represents each n-dimensional position index as a symbolic
sequence and employs a lightweight sequential position encoder to learn their
embeddings in an end-to-end manner. To regularize SeqPE's embedding space, we
introduce two complementary objectives: a contrastive objective that aligns
embedding distances with a predefined position-distance function, and a
knowledge distillation loss that anchors out-of-distribution position
embeddings to in-distribution teacher representations, further enhancing
extrapolation performance. Experiments across language modeling, long-context
question answering, and 2D image classification demonstrate that SeqPE not only
surpasses strong baselines in perplexity, exact match (EM), and
accuracy--particularly under context length extrapolation--but also enables
seamless generalization to multi-dimensional inputs without requiring manual
architectural redesign. We release our code, data, and checkpoints at
https://github.com/ghrua/seqpe.