GeoDistill : Auto-distillation guidée par la géométrie pour la localisation inter-vues faiblement supervisée
GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization
July 15, 2025
papers.authors: Shaowen Tong, Zimin Xia, Alexandre Alahi, Xuming He, Yujiao Shi
cs.AI
papers.abstract
La localisation inter-vues, qui consiste à estimer la pose à 3 degrés de liberté (3-DoF) d'une caméra en alignant des images au niveau du sol avec des images satellites, est cruciale pour les applications extérieures à grande échelle telles que la navigation autonome et la réalité augmentée. Les méthodes existantes reposent souvent sur l'apprentissage supervisé complet, qui nécessite des annotations de pose de vérité terrain coûteuses. Dans ce travail, nous proposons GeoDistill, un cadre d'auto-distillation faiblement supervisé guidé par la géométrie, qui utilise l'apprentissage enseignant-élève avec un masquage basé sur le champ de vision (FoV) pour améliorer l'apprentissage des caractéristiques locales en vue d'une localisation inter-vues robuste. Dans GeoDistill, le modèle enseignant localise une image panoramique, tandis que le modèle élève prédit les emplacements à partir d'une version à champ de vision limité créée par le masquage basé sur le FoV. En alignant les prédictions de l'élève avec celles de l'enseignant, l'élève se concentre sur des caractéristiques clés comme les lignes de voie et ignore les régions sans texture, telles que les routes. Cela se traduit par des prédictions plus précises et une incertitude réduite, que les images de requête soient panoramiques ou à champ de vision limité. Nos expériences montrent que GeoDistill améliore significativement les performances de localisation dans différents cadres. De plus, nous introduisons un nouveau réseau d'estimation d'orientation qui prédit l'orientation relative sans nécessiter de vérité terrain précise sur la position planaire. GeoDistill offre une solution évolutive et efficace pour les défis de localisation inter-vues dans le monde réel. Le code et le modèle sont disponibles à l'adresse https://github.com/tongshw/GeoDistill.
English
Cross-view localization, the task of estimating a camera's
3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with
satellite images, is crucial for large-scale outdoor applications like
autonomous navigation and augmented reality. Existing methods often rely on
fully supervised learning, which requires costly ground-truth pose annotations.
In this work, we propose GeoDistill, a Geometry guided weakly supervised self
distillation framework that uses teacher-student learning with Field-of-View
(FoV)-based masking to enhance local feature learning for robust cross-view
localization. In GeoDistill, the teacher model localizes a panoramic image,
while the student model predicts locations from a limited FoV counterpart
created by FoV-based masking. By aligning the student's predictions with those
of the teacher, the student focuses on key features like lane lines and ignores
textureless regions, such as roads. This results in more accurate predictions
and reduced uncertainty, regardless of whether the query images are panoramas
or limited FoV images. Our experiments show that GeoDistill significantly
improves localization performance across different frameworks. Additionally, we
introduce a novel orientation estimation network that predicts relative
orientation without requiring precise planar position ground truth. GeoDistill
provides a scalable and efficient solution for real-world cross-view
localization challenges. Code and model can be found at
https://github.com/tongshw/GeoDistill.