Où assister : Un positionnement visuel centré sur des principes avec des paraboles

Résumé

Nous proposons Parabolic Position Encoding (PaPE), un encodage de position basé sur une parabole pour les modalités visuelles dans les architectures basées sur l'attention. Étant donné un ensemble de tokens visuels - tels que des images, des nuages de points, des vidéos ou des flux de caméras événementielles - notre objectif est d'encoder leurs positions tout en tenant compte des caractéristiques des modalités visuelles. Les travaux antérieurs ont largement étendu les encodages de position des séquences 1D du langage aux structures nD de la vision, mais seulement en tenant partiellement compte des caractéristiques visuelles. Nous comblons cette lacune en concevant PaPE à partir de principes distillés des travaux antérieurs : l'invariance par translation, l'invariance par rotation (PaPE-RI), la décroissance avec la distance, la directivité et la sensibilité au contexte. Nous évaluons PaPE sur 8 jeux de données couvrant 4 modalités. Nous constatons que PaPE ou PaPE-RI obtient les meilleures performances sur 7 des 8 jeux de données. Des expériences d'extrapolation sur ImageNet-1K montrent que PaPE extrapole remarquablement bien, améliorant en termes absolus jusqu'à 10,5 % par rapport au meilleur encodage de position suivant. Le code est disponible à l'adresse https://github.com/DTU-PAS/parabolic-position-encoding.

English

We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.

Où assister : Un positionnement visuel centré sur des principes avec des paraboles

Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas

Résumé

Support