**Куда направить внимание: принципиально визуально-ориентированное позиционное кодирование с использованием парабол**
Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas
February 1, 2026
Авторы: Christoffer Koo Øhrstrøm, Rafael I. Cabral Muchacho, Yifei Dong, Filippos Moumtzidellis, Ronja Güldenring, Florian T. Pokorny, Lazaros Nalpantidis
cs.AI
Аннотация
Мы предлагаем параболическое позиционное кодирование (PaPE) — позиционное кодирование на основе параболы для визуальных модальностей в архитектурах с механизмом внимания. Для набора визуальных токенов — таких как изображения, облака точек, видео или потоки данных с событийных камер — наша цель состоит в кодировании их позиций с учётом характеристик визуальных модальностей. Предыдущие работы в основном расширяли позиционные кодирования с 1D-последовательностей в языке на nD-структуры в компьютерном зрении, но лишь частично учитывая особенности визуальных данных. Мы устраняем этот пробел, проектируя PaPE на основе принципов, выведенных из предыдущих работ: инвариантности к сдвигу, инвариантности к вращению (PaPE-RI), затухания с расстоянием, направленности и контекстной осведомлённости. Мы оцениваем PaPE на 8 наборах данных, охватывающих 4 модальности. Мы обнаружили, что либо PaPE, либо PaPE-RI демонстрирует наилучшую производительность на 7 из 8 наборов данных. Эксперименты по экстраполяции на ImageNet-1K показывают, что PaPE исключительно хорошо экстраполирует, улучшая абсолютный показатель до 10,5% по сравнению со следующим по эффективности позиционным кодированием. Код доступен по адресу https://github.com/DTU-PAS/parabolic-position-encoding.
English
We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.