Wo man teilnehmen sollte: Eine prinzipienorientierte, visuell-zentrierte Positionskodierung mit Parabeln
Where to Attend: A Principled Vision-Centric Position Encoding with Parabolas
February 1, 2026
Autoren: Christoffer Koo Øhrstrøm, Rafael I. Cabral Muchacho, Yifei Dong, Filippos Moumtzidellis, Ronja Güldenring, Florian T. Pokorny, Lazaros Nalpantidis
cs.AI
Zusammenfassung
Wir schlagen Parabolic Position Encoding (PaPE) vor, eine parabelbasierte Positionskodierung für visuelle Modalitäten in auf Aufmerksamkeit basierenden Architekturen. Gegeben eine Menge von visuellen Token – wie Bilder, Punktwolken, Videos oder Event-Camera-Streams – ist unser Ziel, ihre Positionen unter Berücksichtigung der Eigenschaften visueller Modalitäten zu kodieren. Bisherige Arbeiten haben Positionskodierungen weitgehend von 1D-Sequenzen in der Sprache auf nD-Strukturen in der Vision erweitert, jedoch nur mit teilweiser Berücksichtigung visueller Eigenschaften. Wir schließen diese Lücke, indem wir PaPE anhand von Prinzipien entwerfen, die aus vorherigen Arbeiten destilliert wurden: Translationsinvarianz, Rotationsinvarianz (PaPE-RI), Distanzabnahme, Direktionalität und Kontextbewusstsein. Wir evaluieren PaPE auf 8 Datensätzen, die 4 Modalitäten abdecken. Wir stellen fest, dass entweder PaPE oder PaPE-RI auf 7 von 8 Datensätzen die beste Leistung erzielt. Extrapolationsexperimente auf ImageNet-1K zeigen, dass PaPE bemerkenswert gut extrapoliert und in absoluten Zahlen um bis zu 10,5 % gegenüber der nächstbesten Positionskodierung verbessert. Code ist verfügbar unter https://github.com/DTU-PAS/parabolic-position-encoding.
English
We propose Parabolic Position Encoding (PaPE), a parabola-based position encoding for vision modalities in attention-based architectures. Given a set of vision tokens-such as images, point clouds, videos, or event camera streams-our objective is to encode their positions while accounting for the characteristics of vision modalities. Prior works have largely extended position encodings from 1D-sequences in language to nD-structures in vision, but only with partial account of vision characteristics. We address this gap by designing PaPE from principles distilled from prior work: translation invariance, rotation invariance (PaPE-RI), distance decay, directionality, and context awareness. We evaluate PaPE on 8 datasets that span 4 modalities. We find that either PaPE or PaPE-RI achieves the top performance on 7 out of 8 datasets. Extrapolation experiments on ImageNet-1K show that PaPE extrapolates remarkably well, improving in absolute terms by up to 10.5% over the next-best position encoding. Code is available at https://github.com/DTU-PAS/parabolic-position-encoding.