CIPER: Een geünificeerd raamwerk voor cross-view beeldopvraging en pose-schatting

Samenvatting

Cross-view geo-localisatie schat de geografische locatie van een grondbeeld door het te matchen met een database van luchtbeelden. Bestaande methoden pakken dit aan via grootschalige retrieval of nauwkeurige pose-schatting, maar niet beide: retrieval-gebaseerde methoden maken breed-areaal zoeken mogelijk ten koste van de lokalisatienauwkeurigheid, terwijl pose-schattingsmethoden hoge precisie bereiken binnen slechts een smalle zoekruimte. Het naïef achter elkaar schakelen van deze pipelines introduceert foutenpropagatie en inconsistente kenmerkrepresentaties. Wij formuleren cross-view geo-localisatie als een verenigd probleem dat gelijktijdige stedelijke retrieval en nauwkeurige 3-DoF pose-schatting vereist. Wij stellen CIPER (Cross-view Image-retrieval and Pose-estimation transformER) voor, een enkele architectuur die beide taken gezamenlijk uitvoert door middel van wederzijds voordelig kenmerkenleren. CIPER gebruikt een gedeelde transformer encoder met taakspecifieke tokens om globale retrievalkenmerken te ontwarren van ruimtelijke lokalisatieaanwijzingen. Om de grote domeinkloof tussen grond- en luchtbeelden te overbruggen, introduceren wij een tweerichtings transformer pose decoder die grondkenmerken gebruikt als ruimtelijke queries voor bidirectionele cross-attentie. Een setvoorspellingsstrategie maakt verder stabiele 3-DoF regressie mogelijk onder een verenigde multi-taakdoelstelling. Experimenten op VIGOR, KITTI en Ford Multi-AV tonen concurrerende prestaties, vooral onder beperkt gezichtsveld en willekeurige oriëntatieomstandigheden. Code is beschikbaar op https://github.com/yurimjeon1892/CIPER.

English

Cross-view geo-localization estimates the geographic location of a ground image by matching it against an aerial image database. Existing methods tackle this through either large-scale retrieval or precise pose estimation, but not both: retrieval-based methods enable wide-area search at the cost of localization accuracy, while pose estimation methods achieve high precision within only a narrow search space. Naively cascading these pipelines introduces error propagation and inconsistent feature representations. We formulate cross-view geo-localization as a unified problem requiring simultaneous city-scale retrieval and precise 3-DoF pose estimation. We propose CIPER (Cross-view Image-retrieval and Pose-estimation transformER), a single architecture that jointly performs both tasks through mutually beneficial feature learning. CIPER uses a shared transformer encoder with task-specific tokens to disentangle global retrieval features from spatial localization cues. To bridge the large domain gap between ground and aerial views, we introduce a two-way transformer pose decoder that uses ground features as spatial queries for bidirectional cross-attention. A set prediction strategy further enables stable 3-DoF regression under a unified multi-task objective. Experiments on VIGOR, KITTI, and Ford Multi-AV demonstrate competitive performance, especially under limited field-of-view and arbitrary orientation conditions. Code is available at https://github.com/yurimjeon1892/CIPER.