ChatPaper.aiChatPaper

SeqPE: Трансформер с последовательным позиционным кодированием

SeqPE: Transformer with Sequential Position Encoding

June 16, 2025
Авторы: Huyang Li, Yahui Liu, Hongyu Sun, Deng Cai, Leyang Cui, Wei Bi, Peilin Zhao, Taro Watanabe
cs.AI

Аннотация

Поскольку слои самовнимания в трансформерах по своей природе инвариантны к перестановкам, необходимо явно включать позиционные кодировки для обеспечения пространственного понимания. Однако таблицы фиксированного размера, используемые в традиционных обучаемых позиционных эмбеддингах (PE), ограничивают возможности экстраполяции за пределы предварительно обученных длин последовательностей. Экспертно разработанные методы, такие как ALiBi и RoPE, смягчают это ограничение, но требуют значительных изменений для адаптации к новым модальностям, что подчеркивает фундаментальные проблемы адаптивности и масштабируемости. В данной работе мы представляем SeqPE, унифицированную и полностью обучаемую структуру позиционного кодирования, которая представляет каждый n-мерный позиционный индекс как символическую последовательность и использует легковесный последовательный позиционный кодировщик для обучения их эмбеддингов сквозным образом. Для регуляризации пространства эмбеддингов SeqPE мы вводим две дополнительные цели: контрастную цель, которая согласовывает расстояния эмбеддингов с предопределенной функцией расстояния позиций, и функцию потери дистилляции знаний, которая привязывает эмбеддинги позиций вне распределения к представлениям учителя внутри распределения, что дополнительно улучшает производительность экстраполяции. Эксперименты в области языкового моделирования, ответов на вопросы в длинных контекстах и классификации 2D-изображений демонстрируют, что SeqPE не только превосходит сильные базовые линии по перплексии, точному совпадению (EM) и точности — особенно при экстраполяции длины контекста — но также обеспечивает плавное обобщение на многомерные входные данные без необходимости ручного перепроектирования архитектуры. Мы публикуем наш код, данные и контрольные точки по адресу https://github.com/ghrua/seqpe.
English
Since self-attention layers in Transformers are permutation invariant by design, positional encodings must be explicitly incorporated to enable spatial understanding. However, fixed-size lookup tables used in traditional learnable position embeddings (PEs) limit extrapolation capabilities beyond pre-trained sequence lengths. Expert-designed methods such as ALiBi and RoPE, mitigate this limitation but demand extensive modifications for adapting to new modalities, underscoring fundamental challenges in adaptability and scalability. In this work, we present SeqPE, a unified and fully learnable position encoding framework that represents each n-dimensional position index as a symbolic sequence and employs a lightweight sequential position encoder to learn their embeddings in an end-to-end manner. To regularize SeqPE's embedding space, we introduce two complementary objectives: a contrastive objective that aligns embedding distances with a predefined position-distance function, and a knowledge distillation loss that anchors out-of-distribution position embeddings to in-distribution teacher representations, further enhancing extrapolation performance. Experiments across language modeling, long-context question answering, and 2D image classification demonstrate that SeqPE not only surpasses strong baselines in perplexity, exact match (EM), and accuracy--particularly under context length extrapolation--but also enables seamless generalization to multi-dimensional inputs without requiring manual architectural redesign. We release our code, data, and checkpoints at https://github.com/ghrua/seqpe.
PDF22June 17, 2025