Dónde Asistir: Una Codificación de Posición Visión-Céntrica Basada en Principios con Parábolas

Resumen

Proponemos Parabolic Position Encoding (PaPE), una codificación posicional basada en parábolas para modalidades de visión en arquitecturas basadas en atención. Dado un conjunto de *tokens* de visión —como imágenes, nubes de puntos, vídeos o secuencias de cámaras de eventos— nuestro objetivo es codificar sus posiciones teniendo en cuenta las características de las modalidades de visión. Trabajos previos han extendido en gran medida las codificaciones posicionales de secuencias 1D en lenguaje a estructuras nD en visión, pero solo con una consideración parcial de las características visuales. Abordamos esta brecha diseñando PaPE a partir de principios extraídos de trabajos anteriores: invariancia traslacional, invariancia rotacional (PaPE-RI), decaimiento con la distancia, direccionalidad y conciencia del contexto. Evaluamos PaPE en 8 conjuntos de datos que abarcan 4 modalidades. Encontramos que PaPE o PaPE-RI logran el mejor rendimiento en 7 de los 8 conjuntos de datos. Experimentos de extrapolación en ImageNet-1K muestran que PaPE extrapola notablemente bien, mejorando en términos absolutos hasta un 10,5% respecto a la siguiente mejor codificación posicional. El código está disponible en https://github.com/DTU-PAS/parabolic-position-encoding.

English

We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.