GeoDistill: Геометрически управляемая самодистилляция для слабо контролируемой кросс-видовой локализации

Аннотация

Кросс-визуальная локализация — задача оценки 3-степеней свободы (3-DoF) положения камеры путем сопоставления наземных изображений со спутниковыми снимками — играет ключевую роль в крупномасштабных приложениях на открытом воздухе, таких как автономная навигация и дополненная реальность. Существующие методы часто полагаются на полностью контролируемое обучение, которое требует дорогостоящих аннотаций точного положения. В данной работе мы предлагаем GeoDistill — геометрически направленную слабо контролируемую структуру самообучения, использующую обучение по модели "учитель-ученик" с маскированием на основе поля зрения (FoV) для улучшения изучения локальных признаков в целях устойчивой кросс-визуальной локализации. В GeoDistill модель учителя локализует панорамное изображение, а модель ученика предсказывает местоположение на основе ограниченного FoV-изображения, созданного с помощью маскирования. Сопоставляя предсказания ученика с предсказаниями учителя, ученик фокусируется на ключевых признаках, таких как линии разметки, и игнорирует текстурированные области, например, дороги. Это приводит к более точным предсказаниям и снижению неопределенности, независимо от того, являются ли запрашиваемые изображения панорамными или с ограниченным FoV. Наши эксперименты показывают, что GeoDistill значительно улучшает производительность локализации в различных структурах. Кроме того, мы представляем новую сеть оценки ориентации, которая предсказывает относительную ориентацию без необходимости точного знания истинного положения на плоскости. GeoDistill предлагает масштабируемое и эффективное решение для задач кросс-визуальной локализации в реальных условиях. Код и модель доступны по адресу https://github.com/tongshw/GeoDistill.

English

Cross-view localization, the task of estimating a camera's 3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with satellite images, is crucial for large-scale outdoor applications like autonomous navigation and augmented reality. Existing methods often rely on fully supervised learning, which requires costly ground-truth pose annotations. In this work, we propose GeoDistill, a Geometry guided weakly supervised self distillation framework that uses teacher-student learning with Field-of-View (FoV)-based masking to enhance local feature learning for robust cross-view localization. In GeoDistill, the teacher model localizes a panoramic image, while the student model predicts locations from a limited FoV counterpart created by FoV-based masking. By aligning the student's predictions with those of the teacher, the student focuses on key features like lane lines and ignores textureless regions, such as roads. This results in more accurate predictions and reduced uncertainty, regardless of whether the query images are panoramas or limited FoV images. Our experiments show that GeoDistill significantly improves localization performance across different frameworks. Additionally, we introduce a novel orientation estimation network that predicts relative orientation without requiring precise planar position ground truth. GeoDistill provides a scalable and efficient solution for real-world cross-view localization challenges. Code and model can be found at https://github.com/tongshw/GeoDistill.

GeoDistill: Геометрически управляемая самодистилляция для слабо контролируемой кросс-видовой локализации

GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization

Аннотация

Support