Wo man teilnehmen sollte: Eine prinzipienorientierte, visuell-zentrierte Positionskodierung mit Parabeln

Zusammenfassung

Wir schlagen Parabolic Position Encoding (PaPE) vor, eine parabelbasierte Positionskodierung für visuelle Modalitäten in auf Aufmerksamkeit basierenden Architekturen. Gegeben eine Menge von visuellen Token – wie Bilder, Punktwolken, Videos oder Event-Camera-Streams – ist unser Ziel, ihre Positionen unter Berücksichtigung der Eigenschaften visueller Modalitäten zu kodieren. Bisherige Arbeiten haben Positionskodierungen weitgehend von 1D-Sequenzen in der Sprache auf nD-Strukturen in der Vision erweitert, jedoch nur mit teilweiser Berücksichtigung visueller Eigenschaften. Wir schließen diese Lücke, indem wir PaPE anhand von Prinzipien entwerfen, die aus vorherigen Arbeiten destilliert wurden: Translationsinvarianz, Rotationsinvarianz (PaPE-RI), Distanzabnahme, Direktionalität und Kontextbewusstsein. Wir evaluieren PaPE auf 8 Datensätzen, die 4 Modalitäten abdecken. Wir stellen fest, dass entweder PaPE oder PaPE-RI auf 7 von 8 Datensätzen die beste Leistung erzielt. Extrapolationsexperimente auf ImageNet-1K zeigen, dass PaPE bemerkenswert gut extrapoliert und in absoluten Zahlen um bis zu 10,5 % gegenüber der nächstbesten Positionskodierung verbessert. Code ist verfügbar unter https://github.com/DTU-PAS/parabolic-position-encoding.

English

We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.

Wo man teilnehmen sollte: Eine prinzipienorientierte, visuell-zentrierte Positionskodierung mit Parabeln

Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas

Zusammenfassung

Support