ChatPaper.aiChatPaper

GeoDistill: Geometrie-Gestuurde Zelfdistillatie voor Zwak Gesuperviseerde Cross-View Lokalisatie

GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization

July 15, 2025
Auteurs: Shaowen Tong, Zimin Xia, Alexandre Alahi, Xuming He, Yujiao Shi
cs.AI

Samenvatting

Cross-view localisatie, de taak om de 3-vrijheidsgraden (3-DoF) positie van een camera te schatten door grondniveau beelden uit te lijnen met satellietbeelden, is cruciaal voor grootschalige buitenapplicaties zoals autonome navigatie en augmented reality. Bestaande methoden zijn vaak gebaseerd op volledig gesuperviseerd leren, wat kostbare grondwaarheidspositieannotaties vereist. In dit werk stellen we GeoDistill voor, een Geometry guided zwak gesuperviseerd zelfdistillatie raamwerk dat teacher-student leren gebruikt met Field-of-View (FoV)-gebaseerde maskering om lokale kenmerken te verbeteren voor robuuste cross-view localisatie. In GeoDistill lokaliseert het teacher-model een panoramabeeld, terwijl het student-model locaties voorspelt vanuit een beperkt FoV tegenhanger gemaakt door FoV-gebaseerde maskering. Door de voorspellingen van de student uit te lijnen met die van de teacher, richt de student zich op belangrijke kenmerken zoals rijstroken en negeert textuurloze gebieden, zoals wegen. Dit resulteert in nauwkeurigere voorspellingen en verminderde onzekerheid, ongeacht of de querybeelden panorama's of beperkte FoV beelden zijn. Onze experimenten tonen aan dat GeoDistill de localisatieprestaties aanzienlijk verbetert over verschillende raamwerken. Daarnaast introduceren we een nieuw oriëntatieschatting netwerk dat relatieve oriëntatie voorspelt zonder precieze planaire positie grondwaarheid te vereisen. GeoDistill biedt een schaalbare en efficiënte oplossing voor real-world cross-view localisatie uitdagingen. Code en model zijn te vinden op https://github.com/tongshw/GeoDistill.
English
Cross-view localization, the task of estimating a camera's 3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with satellite images, is crucial for large-scale outdoor applications like autonomous navigation and augmented reality. Existing methods often rely on fully supervised learning, which requires costly ground-truth pose annotations. In this work, we propose GeoDistill, a Geometry guided weakly supervised self distillation framework that uses teacher-student learning with Field-of-View (FoV)-based masking to enhance local feature learning for robust cross-view localization. In GeoDistill, the teacher model localizes a panoramic image, while the student model predicts locations from a limited FoV counterpart created by FoV-based masking. By aligning the student's predictions with those of the teacher, the student focuses on key features like lane lines and ignores textureless regions, such as roads. This results in more accurate predictions and reduced uncertainty, regardless of whether the query images are panoramas or limited FoV images. Our experiments show that GeoDistill significantly improves localization performance across different frameworks. Additionally, we introduce a novel orientation estimation network that predicts relative orientation without requiring precise planar position ground truth. GeoDistill provides a scalable and efficient solution for real-world cross-view localization challenges. Code and model can be found at https://github.com/tongshw/GeoDistill.
PDF11July 22, 2025