GeoDistill: Геометрически управляемая самодистилляция для слабо контролируемой кросс-видовой локализации
GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization
July 15, 2025
Авторы: Shaowen Tong, Zimin Xia, Alexandre Alahi, Xuming He, Yujiao Shi
cs.AI
Аннотация
Кросс-визуальная локализация — задача оценки 3-степеней свободы (3-DoF) положения камеры путем сопоставления наземных изображений со спутниковыми снимками — играет ключевую роль в крупномасштабных приложениях на открытом воздухе, таких как автономная навигация и дополненная реальность. Существующие методы часто полагаются на полностью контролируемое обучение, которое требует дорогостоящих аннотаций точного положения. В данной работе мы предлагаем GeoDistill — геометрически направленную слабо контролируемую структуру самообучения, использующую обучение по модели "учитель-ученик" с маскированием на основе поля зрения (FoV) для улучшения изучения локальных признаков в целях устойчивой кросс-визуальной локализации. В GeoDistill модель учителя локализует панорамное изображение, а модель ученика предсказывает местоположение на основе ограниченного FoV-изображения, созданного с помощью маскирования. Сопоставляя предсказания ученика с предсказаниями учителя, ученик фокусируется на ключевых признаках, таких как линии разметки, и игнорирует текстурированные области, например, дороги. Это приводит к более точным предсказаниям и снижению неопределенности, независимо от того, являются ли запрашиваемые изображения панорамными или с ограниченным FoV. Наши эксперименты показывают, что GeoDistill значительно улучшает производительность локализации в различных структурах. Кроме того, мы представляем новую сеть оценки ориентации, которая предсказывает относительную ориентацию без необходимости точного знания истинного положения на плоскости. GeoDistill предлагает масштабируемое и эффективное решение для задач кросс-визуальной локализации в реальных условиях. Код и модель доступны по адресу https://github.com/tongshw/GeoDistill.
English
Cross-view localization, the task of estimating a camera's
3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with
satellite images, is crucial for large-scale outdoor applications like
autonomous navigation and augmented reality. Existing methods often rely on
fully supervised learning, which requires costly ground-truth pose annotations.
In this work, we propose GeoDistill, a Geometry guided weakly supervised self
distillation framework that uses teacher-student learning with Field-of-View
(FoV)-based masking to enhance local feature learning for robust cross-view
localization. In GeoDistill, the teacher model localizes a panoramic image,
while the student model predicts locations from a limited FoV counterpart
created by FoV-based masking. By aligning the student's predictions with those
of the teacher, the student focuses on key features like lane lines and ignores
textureless regions, such as roads. This results in more accurate predictions
and reduced uncertainty, regardless of whether the query images are panoramas
or limited FoV images. Our experiments show that GeoDistill significantly
improves localization performance across different frameworks. Additionally, we
introduce a novel orientation estimation network that predicts relative
orientation without requiring precise planar position ground truth. GeoDistill
provides a scalable and efficient solution for real-world cross-view
localization challenges. Code and model can be found at
https://github.com/tongshw/GeoDistill.