CIPER: Um Framework Unificado para Recuperação de Imagens e Estimativa de Pose em Visão Cruzada

Resumo

A geolocalização entre vistas estima a localização geográfica de uma imagem terrestre ao compará-la com um banco de imagens aéreas. Métodos existentes abordam essa tarefa por meio de recuperação em larga escala ou estimativa precisa de pose, mas não ambos: métodos baseados em recuperação permitem busca em áreas amplas ao custo da precisão de localização, enquanto métodos de estimativa de pose alcançam alta precisão apenas em um espaço de busca restrito. A simples combinação em cascata dessas abordagens introduz propagação de erros e representações de características inconsistentes. Formulamos a geolocalização entre vistas como um problema unificado que exige simultaneamente recuperação em escala urbana e estimativa precisa de pose com 3 graus de liberdade (3-DoF). Propomos o CIPER (Transformador de Recuperação de Imagem e Estimativa de Pose entre Vistas), uma arquitetura única que realiza ambas as tarefas de forma conjunta por meio de aprendizado de características mutuamente benéfico. O CIPER utiliza um codificador transformer compartilhado com tokens específicos para cada tarefa, a fim de separar características globais de recuperação de pistas espaciais de localização. Para reduzir a grande lacuna de domínio entre as vistas terrestre e aérea, introduzimos um decodificador transformer de pose bidirecional que utiliza características terrestres como consultas espaciais para atenção cruzada bidirecional. Uma estratégia de predição de conjuntos permite ainda a regressão estável de 3-DoF sob um objetivo multitarefa unificado. Experimentos nos conjuntos VIGOR, KITTI e Ford Multi-AV demonstram desempenho competitivo, especialmente sob condições de campo de visão limitado e orientação arbitrária. O código está disponível em https://github.com/yurimjeon1892/CIPER.

English

Cross-view geo-localization estimates the geographic location of a ground image by matching it against an aerial image database. Existing methods tackle this through either large-scale retrieval or precise pose estimation, but not both: retrieval-based methods enable wide-area search at the cost of localization accuracy, while pose estimation methods achieve high precision within only a narrow search space. Naively cascading these pipelines introduces error propagation and inconsistent feature representations. We formulate cross-view geo-localization as a unified problem requiring simultaneous city-scale retrieval and precise 3-DoF pose estimation. We propose CIPER (Cross-view Image-retrieval and Pose-estimation transformER), a single architecture that jointly performs both tasks through mutually beneficial feature learning. CIPER uses a shared transformer encoder with task-specific tokens to disentangle global retrieval features from spatial localization cues. To bridge the large domain gap between ground and aerial views, we introduce a two-way transformer pose decoder that uses ground features as spatial queries for bidirectional cross-attention. A set prediction strategy further enables stable 3-DoF regression under a unified multi-task objective. Experiments on VIGOR, KITTI, and Ford Multi-AV demonstrate competitive performance, especially under limited field-of-view and arbitrary orientation conditions. Code is available at https://github.com/yurimjeon1892/CIPER.