CIPER: Унифицированный фреймворк для перекрестного поиска изображений и оценки позы

Аннотация

Кросс-видовая геолокация оценивает географическое положение наземного изображения путем его сопоставления с базой данных аэрофотоснимков. Существующие методы решают эту задачу либо с помощью широкомасштабного поиска, либо точной оценки позы, но не обеих одновременно: методы, основанные на поиске, обеспечивают поиск на большой площади ценой точности локализации, в то время как методы оценки позы достигают высокой точности лишь в узком пространстве поиска. Наивное каскадирование таких конвейеров приводит к распространению ошибок и несогласованным представлениям признаков. Мы формулируем кросс-видовую геолокацию как единую задачу, требующую одновременного поиска в масштабе города и точной оценки позы с тремя степенями свободы. Мы предлагаем CIPER (трансформер для поиска изображений и оценки позы по кросс-видовым данным) — единую архитектуру, которая совместно выполняет обе задачи за счет взаимовыгодного обучения признаков. CIPER использует общий кодировщик-трансформер с токенами, специфичными для каждой задачи, чтобы разделить глобальные признаки поиска и пространственные подсказки для локализации. Для преодоления большого разрыва в доменах между наземными и аэрофотоснимками мы вводим двунаправленный декодер позы-трансформер, который использует наземные признаки в качестве пространственных запросов для двустороннего кросс-внимания. Стратегия предсказания множества объектов дополнительно обеспечивает устойчивую регрессию с тремя степенями свободы в рамках единой многозадачной целевой функции. Эксперименты на VIGOR, KITTI и Ford Multi-AV демонстрируют конкурентоспособную производительность, особенно в условиях ограниченного поля зрения и произвольной ориентации. Код доступен по адресу https://github.com/yurimjeon1892/CIPER.

English

Cross-view geo-localization estimates the geographic location of a ground image by matching it against an aerial image database. Existing methods tackle this through either large-scale retrieval or precise pose estimation, but not both: retrieval-based methods enable wide-area search at the cost of localization accuracy, while pose estimation methods achieve high precision within only a narrow search space. Naively cascading these pipelines introduces error propagation and inconsistent feature representations. We formulate cross-view geo-localization as a unified problem requiring simultaneous city-scale retrieval and precise 3-DoF pose estimation. We propose CIPER (Cross-view Image-retrieval and Pose-estimation transformER), a single architecture that jointly performs both tasks through mutually beneficial feature learning. CIPER uses a shared transformer encoder with task-specific tokens to disentangle global retrieval features from spatial localization cues. To bridge the large domain gap between ground and aerial views, we introduce a two-way transformer pose decoder that uses ground features as spatial queries for bidirectional cross-attention. A set prediction strategy further enables stable 3-DoF regression under a unified multi-task objective. Experiments on VIGOR, KITTI, and Ford Multi-AV demonstrate competitive performance, especially under limited field-of-view and arbitrary orientation conditions. Code is available at https://github.com/yurimjeon1892/CIPER.