Onde Atender: Uma Codificação de Posição Centrada na Visão com Base em Princípios usando Parábolas
Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas
February 1, 2026
Autores: Christoffer Koo Øhrstrøm, Rafael I. Cabral Muchacho, Yifei Dong, Filippos Moumtzidellis, Ronja Güldenring, Florian T. Pokorny, Lazaros Nalpantidis
cs.AI
Resumo
Propomos a Codificação de Posição Parabólica (PaPE), uma codificação de posição baseada em parábola para modalidades visuais em arquiteturas baseadas em atenção. Dado um conjunto de tokens visuais - como imagens, nuvens de pontos, vídeos ou fluxos de câmeras de evento - nosso objetivo é codificar suas posições considerando as características das modalidades visuais. Trabalhos anteriores estenderam amplamente as codificações de posição de sequências 1D na linguagem para estruturas nD na visão, mas apenas com consideração parcial das características visuais. Abordamos essa lacuna projetando a PaPE a partir de princípios extraídos de trabalhos anteriores: invariância à translação, invariância à rotação (PaPE-RI), decaimento com a distância, direcionalidade e consciência contextual. Avaliamos a PaPE em 8 conjuntos de dados que abrangem 4 modalidades. Descobrimos que a PaPE ou a PaPE-RI alcançam o melhor desempenho em 7 dos 8 conjuntos de dados. Experimentos de extrapolação no ImageNet-1K mostram que a PaPE extrapola notavelmente bem, melhorando em termos absolutos em até 10,5% em relação à próxima melhor codificação de posição. O código está disponível em https://github.com/DTU-PAS/parabolic-position-encoding.
English
We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.