CIPER: Ein einheitlicher Rahmen für den Cross-View-Bildabruf und die Pose-Schätzung

Zusammenfassung

Cross-View-Geolokalisierung schätzt die geografische Position eines Bodenbildes durch Abgleich mit einer Luftbilddatenbank. Bestehende Methoden lösen dies entweder durch großflächige Suche oder präzise Posenbestimmung, jedoch nicht durch beides: suchbasierte Methoden ermöglichen eine flächendeckende Suche auf Kosten der Lokalisierungsgenauigkeit, während Methoden zur Posenbestimmung nur in einem eingeschränkten Suchraum hohe Präzision erreichen. Ein naives Hintereinanderschalten dieser Pipelines führt zu Fehlerfortpflanzung und inkonsistenten Merkmalsdarstellungen. Wir formulieren Cross-View-Geolokalisierung als einheitliches Problem, das gleichzeitige stadtweite Suche und präzise 3-DoF-Posenbestimmung erfordert. Wir schlagen CIPER (Cross-view Image-retrieval and Pose-estimation transformER) vor, eine einzelne Architektur, die beide Aufgaben durch gegenseitig vorteilhaftes Merkmalslernen gemeinsam ausführt. CIPER verwendet einen gemeinsamen Transformer-Encoder mit aufgabenspezifischen Tokens, um globale Suchmerkmale von räumlichen Lokalisierungshinweisen zu trennen. Um die große Domänenlücke zwischen Boden- und Luftaufnahmen zu überbrücken, führen wir einen bidirektionalen Transformer-Pose-Decoder ein, der Bodenmerkmale als räumliche Abfragen für bidirektionale Kreuzattention nutzt. Eine Set-Vorhersagestrategie ermöglicht zudem eine stabile 3-DoF-Regression unter einem einheitlichen Multi-Task-Ziel. Experimente auf VIGOR, KITTI und Ford Multi-AV zeigen wettbewerbsfähige Leistung, insbesondere bei eingeschränktem Sichtfeld und beliebigen Ausrichtungsbedingungen. Der Code ist verfügbar unter https://github.com/yurimjeon1892/CIPER.

English

Cross-view geo-localization estimates the geographic location of a ground image by matching it against an aerial image database. Existing methods tackle this through either large-scale retrieval or precise pose estimation, but not both: retrieval-based methods enable wide-area search at the cost of localization accuracy, while pose estimation methods achieve high precision within only a narrow search space. Naively cascading these pipelines introduces error propagation and inconsistent feature representations. We formulate cross-view geo-localization as a unified problem requiring simultaneous city-scale retrieval and precise 3-DoF pose estimation. We propose CIPER (Cross-view Image-retrieval and Pose-estimation transformER), a single architecture that jointly performs both tasks through mutually beneficial feature learning. CIPER uses a shared transformer encoder with task-specific tokens to disentangle global retrieval features from spatial localization cues. To bridge the large domain gap between ground and aerial views, we introduce a two-way transformer pose decoder that uses ground features as spatial queries for bidirectional cross-attention. A set prediction strategy further enables stable 3-DoF regression under a unified multi-task objective. Experiments on VIGOR, KITTI, and Ford Multi-AV demonstrate competitive performance, especially under limited field-of-view and arbitrary orientation conditions. Code is available at https://github.com/yurimjeon1892/CIPER.