Waar te zijn: Een principieel visie-gestuurd plaatscoderingssysteem met parabolen

Samenvatting

Wij introduceren Parabolische Positiecodering (PaPE), een op een parabool gebaseerde positiecodering voor visuele modaliteiten in attention-gebaseerde architecturen. Gegeven een set visuele tokens—zoals afbeeldingen, puntenwolken, video's of event camera streams—is ons doel hun posities te coderen, rekening houdend met de kenmerken van visuele modaliteiten. Eerdere werken hebben positiecoderingen grotendeels uitgebreid van 1D-sequenties in taal naar nD-structuren in visie, maar slechts met een gedeeltelijke inachtneming van visuele kenmerken. Wij dichten deze kloof door PaPE te ontwerpen op basis van principes gedistilleerd uit eerder werk: translatie-invariantie, rotatie-invariantie (PaPE-RI), afstandsverval, directionaliteit en contextbewustzijn. Wij evalueren PaPE op 8 datasets die 4 modaliteiten omvatten. Wij stellen vast dat PaPE of PaPE-RI de beste prestaties behaalt op 7 van de 8 datasets. Extrapolatie-experimenten op ImageNet-1K tonen aan dat PaPE bijzonder goed extrapoleert, met een absolute verbetering van tot 10,5% ten opzichte van de op een na beste positiecodering. Code is beschikbaar op https://github.com/DTU-PAS/parabolic-position-encoding.

English

We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.

Waar te zijn: Een principieel visie-gestuurd plaatscoderingssysteem met parabolen

Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas

Samenvatting

Support