CIPER : Un cadre unifié pour la recherche d'images trans-vue et l'estimation de pose

Résumé

La localisation géolocalisée inter-vue estime la localisation géographique d'une image au sol en la faisant correspondre à une base de données d'images aériennes. Les méthodes existantes abordent cela soit par une recherche à grande échelle, soit par une estimation précise de la pose, mais pas les deux : les méthodes basées sur la recherche permettent une recherche sur une vaste zone au détriment de la précision de la localisation, tandis que les méthodes d'estimation de pose atteignent une haute précision uniquement dans un espace de recherche restreint. L'enchaînement naïf de ces pipelines introduit une propagation d'erreurs et des représentations de caractéristiques incohérentes. Nous formulons la localisation géolocalisée inter-vue comme un problème unifié nécessitant à la fois une recherche à l'échelle de la ville et une estimation précise de la pose à 3 degrés de liberté (DoF). Nous proposons CIPER (Cross-view Image-retrieval and Pose-estimation transformER), une architecture unique qui effectue conjointement les deux tâches grâce à un apprentissage de caractéristiques mutuellement bénéfique. CIPER utilise un encodeur transformer partagé avec des jetons spécifiques aux tâches pour séparer les caractéristiques globales de recherche des indices de localisation spatiale. Afin de combler le grand fossé de domaine entre les vues au sol et aériennes, nous introduisons un décodeur de pose transformer bidirectionnel qui utilise les caractéristiques du sol comme requêtes spatiales pour une attention croisée bidirectionnelle. Une stratégie de prédiction d'ensemble permet en outre une régression stable à 3 degrés de liberté sous un objectif multitâche unifié. Des expériences sur VIGOR, KITTI et Ford Multi-AV démontrent des performances compétitives, en particulier sous un champ de vision limité et des conditions d'orientation arbitraires. Le code est disponible sur https://github.com/yurimjeon1892/CIPER.

English

Cross-view geo-localization estimates the geographic location of a ground image by matching it against an aerial image database. Existing methods tackle this through either large-scale retrieval or precise pose estimation, but not both: retrieval-based methods enable wide-area search at the cost of localization accuracy, while pose estimation methods achieve high precision within only a narrow search space. Naively cascading these pipelines introduces error propagation and inconsistent feature representations. We formulate cross-view geo-localization as a unified problem requiring simultaneous city-scale retrieval and precise 3-DoF pose estimation. We propose CIPER (Cross-view Image-retrieval and Pose-estimation transformER), a single architecture that jointly performs both tasks through mutually beneficial feature learning. CIPER uses a shared transformer encoder with task-specific tokens to disentangle global retrieval features from spatial localization cues. To bridge the large domain gap between ground and aerial views, we introduce a two-way transformer pose decoder that uses ground features as spatial queries for bidirectional cross-attention. A set prediction strategy further enables stable 3-DoF regression under a unified multi-task objective. Experiments on VIGOR, KITTI, and Ford Multi-AV demonstrate competitive performance, especially under limited field-of-view and arbitrary orientation conditions. Code is available at https://github.com/yurimjeon1892/CIPER.