ChatPaper.aiChatPaper

GeoDistill : Auto-distillation guidée par la géométrie pour la localisation inter-vues faiblement supervisée

GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization

July 15, 2025
papers.authors: Shaowen Tong, Zimin Xia, Alexandre Alahi, Xuming He, Yujiao Shi
cs.AI

papers.abstract

La localisation inter-vues, qui consiste à estimer la pose à 3 degrés de liberté (3-DoF) d'une caméra en alignant des images au niveau du sol avec des images satellites, est cruciale pour les applications extérieures à grande échelle telles que la navigation autonome et la réalité augmentée. Les méthodes existantes reposent souvent sur l'apprentissage supervisé complet, qui nécessite des annotations de pose de vérité terrain coûteuses. Dans ce travail, nous proposons GeoDistill, un cadre d'auto-distillation faiblement supervisé guidé par la géométrie, qui utilise l'apprentissage enseignant-élève avec un masquage basé sur le champ de vision (FoV) pour améliorer l'apprentissage des caractéristiques locales en vue d'une localisation inter-vues robuste. Dans GeoDistill, le modèle enseignant localise une image panoramique, tandis que le modèle élève prédit les emplacements à partir d'une version à champ de vision limité créée par le masquage basé sur le FoV. En alignant les prédictions de l'élève avec celles de l'enseignant, l'élève se concentre sur des caractéristiques clés comme les lignes de voie et ignore les régions sans texture, telles que les routes. Cela se traduit par des prédictions plus précises et une incertitude réduite, que les images de requête soient panoramiques ou à champ de vision limité. Nos expériences montrent que GeoDistill améliore significativement les performances de localisation dans différents cadres. De plus, nous introduisons un nouveau réseau d'estimation d'orientation qui prédit l'orientation relative sans nécessiter de vérité terrain précise sur la position planaire. GeoDistill offre une solution évolutive et efficace pour les défis de localisation inter-vues dans le monde réel. Le code et le modèle sont disponibles à l'adresse https://github.com/tongshw/GeoDistill.
English
Cross-view localization, the task of estimating a camera's 3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with satellite images, is crucial for large-scale outdoor applications like autonomous navigation and augmented reality. Existing methods often rely on fully supervised learning, which requires costly ground-truth pose annotations. In this work, we propose GeoDistill, a Geometry guided weakly supervised self distillation framework that uses teacher-student learning with Field-of-View (FoV)-based masking to enhance local feature learning for robust cross-view localization. In GeoDistill, the teacher model localizes a panoramic image, while the student model predicts locations from a limited FoV counterpart created by FoV-based masking. By aligning the student's predictions with those of the teacher, the student focuses on key features like lane lines and ignores textureless regions, such as roads. This results in more accurate predictions and reduced uncertainty, regardless of whether the query images are panoramas or limited FoV images. Our experiments show that GeoDistill significantly improves localization performance across different frameworks. Additionally, we introduce a novel orientation estimation network that predicts relative orientation without requiring precise planar position ground truth. GeoDistill provides a scalable and efficient solution for real-world cross-view localization challenges. Code and model can be found at https://github.com/tongshw/GeoDistill.
PDF11July 22, 2025