CIPER: Un Marco Unificado para la Recuperación de Imágenes entre Vistas y la Estimación de Pose

Resumen

La geolocalización entre vistas estima la ubicación geográfica de una imagen terrestre emparejándola con una base de datos de imágenes aéreas. Los métodos existentes abordan esto mediante recuperación a gran escala o estimación precisa de pose, pero no ambas: los métodos basados en recuperación permiten la búsqueda en áreas extensas a costa de precisión en la localización, mientras que los métodos de estimación de pose logran alta precisión solo dentro de un espacio de búsqueda reducido. La combinación ingenua de estos procesos introduce propagación de errores y representaciones de características inconsistentes. Formulamos la geolocalización entre vistas como un problema unificado que requiere simultáneamente recuperación a escala de ciudad y estimación precisa de pose con 3 grados de libertad. Proponemos CIPER (Cross-view Image-retrieval and Pose-estimation transformER), una arquitectura única que realiza ambas tareas conjuntamente mediante aprendizaje de características mutuamente beneficioso. CIPER utiliza un codificador transformer compartido con tokens específicos de tarea para separar las características globales de recuperación de las señales espaciales de localización. Para salvar la gran brecha de dominio entre las vistas terrestres y aéreas, introducimos un decodificador de pose transformer bidireccional que utiliza características terrestres como consultas espaciales para la atención cruzada bidireccional. Una estrategia de predicción de conjuntos permite además una regresión estable de 3-GdL bajo un objetivo multitarea unificado. Experimentos en VIGOR, KITTI y Ford Multi-AV demuestran un rendimiento competitivo, especialmente en condiciones de campo de visión limitado y orientación arbitraria. El código está disponible en https://github.com/yurimjeon1892/CIPER.

English

Cross-view geo-localization estimates the geographic location of a ground image by matching it against an aerial image database. Existing methods tackle this through either large-scale retrieval or precise pose estimation, but not both: retrieval-based methods enable wide-area search at the cost of localization accuracy, while pose estimation methods achieve high precision within only a narrow search space. Naively cascading these pipelines introduces error propagation and inconsistent feature representations. We formulate cross-view geo-localization as a unified problem requiring simultaneous city-scale retrieval and precise 3-DoF pose estimation. We propose CIPER (Cross-view Image-retrieval and Pose-estimation transformER), a single architecture that jointly performs both tasks through mutually beneficial feature learning. CIPER uses a shared transformer encoder with task-specific tokens to disentangle global retrieval features from spatial localization cues. To bridge the large domain gap between ground and aerial views, we introduce a two-way transformer pose decoder that uses ground features as spatial queries for bidirectional cross-attention. A set prediction strategy further enables stable 3-DoF regression under a unified multi-task objective. Experiments on VIGOR, KITTI, and Ford Multi-AV demonstrate competitive performance, especially under limited field-of-view and arbitrary orientation conditions. Code is available at https://github.com/yurimjeon1892/CIPER.