ChatPaper.aiChatPaper

GeoDistill: Auto-distillazione Guidata dalla Geometria per la Localizzazione Inter-vista con Supervisione Debole

GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization

July 15, 2025
Autori: Shaowen Tong, Zimin Xia, Alexandre Alahi, Xuming He, Yujiao Shi
cs.AI

Abstract

La localizzazione cross-view, il compito di stimare la posa a 3 gradi di libertà (3-DoF) di una fotocamera allineando immagini a livello del suolo con immagini satellitari, è cruciale per applicazioni su larga scala all'aperto come la navigazione autonoma e la realtà aumentata. I metodi esistenti spesso si basano sull'apprendimento completamente supervisionato, che richiede costose annotazioni di posa ground truth. In questo lavoro, proponiamo GeoDistill, un framework di auto-distillazione debolmente supervisionato guidato dalla geometria che utilizza l'apprendimento insegnante-studente con mascheramento basato sul campo visivo (FoV) per migliorare l'apprendimento delle caratteristiche locali per una localizzazione cross-view robusta. In GeoDistill, il modello insegnante localizza un'immagine panoramica, mentre il modello studente prevede le posizioni da una controparte con FoV limitato creata mediante mascheramento basato sul FoV. Allineando le previsioni dello studente con quelle dell'insegnante, lo studente si concentra su caratteristiche chiave come le linee di corsia e ignora regioni prive di texture, come le strade. Ciò si traduce in previsioni più accurate e in una riduzione dell'incertezza, indipendentemente dal fatto che le immagini di query siano panoramiche o con FoV limitato. I nostri esperimenti dimostrano che GeoDistill migliora significativamente le prestazioni di localizzazione in diversi framework. Inoltre, introduciamo una nuova rete di stima dell'orientamento che prevede l'orientamento relativo senza richiedere una ground truth precisa della posizione planare. GeoDistill fornisce una soluzione scalabile ed efficiente per le sfide di localizzazione cross-view nel mondo reale. Codice e modello sono disponibili all'indirizzo https://github.com/tongshw/GeoDistill.
English
Cross-view localization, the task of estimating a camera's 3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with satellite images, is crucial for large-scale outdoor applications like autonomous navigation and augmented reality. Existing methods often rely on fully supervised learning, which requires costly ground-truth pose annotations. In this work, we propose GeoDistill, a Geometry guided weakly supervised self distillation framework that uses teacher-student learning with Field-of-View (FoV)-based masking to enhance local feature learning for robust cross-view localization. In GeoDistill, the teacher model localizes a panoramic image, while the student model predicts locations from a limited FoV counterpart created by FoV-based masking. By aligning the student's predictions with those of the teacher, the student focuses on key features like lane lines and ignores textureless regions, such as roads. This results in more accurate predictions and reduced uncertainty, regardless of whether the query images are panoramas or limited FoV images. Our experiments show that GeoDistill significantly improves localization performance across different frameworks. Additionally, we introduce a novel orientation estimation network that predicts relative orientation without requiring precise planar position ground truth. GeoDistill provides a scalable and efficient solution for real-world cross-view localization challenges. Code and model can be found at https://github.com/tongshw/GeoDistill.
PDF11July 22, 2025