Dove Partecipare: Una Codifica di Posizione Vision-Centric Basata su Principi con Parabole

Abstract

Proponiamo Parabolic Position Encoding (PaPE), una codifica posizionale basata su parabola per le modalità visive nelle architetture basate su attenzione. Dato un insieme di token visivi - come immagini, nuvole di punti, video o flussi di telecamere ad eventi - il nostro obiettivo è codificare le loro posizioni tenendo conto delle caratteristiche delle modalità visive. I lavori precedenti hanno ampiamente esteso le codifiche posizionali da sequenze 1D nel linguaggio a strutture nD nella visione, ma solo con una considerazione parziale delle caratteristiche visive. Affrontiamo questa lacuna progettando PaPE da principi distillati da lavori precedenti: invarianza traslazionale, invarianza rotazionale (PaPE-RI), decadimento con la distanza, direzionalità e consapevolezza del contesto. Valutiamo PaPE su 8 dataset che coprono 4 modalità. Rileviamo che PaPE o PaPE-RI raggiungono le prestazioni migliori in 7 degli 8 dataset. Esperimenti di estrapolazione su ImageNet-1K mostrano che PaPE estrapola in modo notevole, migliorando in termini assoluti fino al 10,5% rispetto alla codifica posizionale immediatamente successiva. Il codice è disponibile all'indirizzo https://github.com/DTU-PAS/parabolic-position-encoding.

English

We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.

Dove Partecipare: Una Codifica di Posizione Vision-Centric Basata su Principi con Parabole

Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas

Abstract

Support