ChatPaper.aiChatPaper

GeoDistill: Auto-Distribución Guiada por Geometría para Localización Intervista Débilmente Supervisada

GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization

July 15, 2025
Autores: Shaowen Tong, Zimin Xia, Alexandre Alahi, Xuming He, Yujiao Shi
cs.AI

Resumen

La localización entre vistas, la tarea de estimar la pose de 3 grados de libertad (3-DoF) de una cámara al alinear imágenes a nivel del suelo con imágenes satelitales, es crucial para aplicaciones a gran escala en exteriores, como la navegación autónoma y la realidad aumentada. Los métodos existentes suelen basarse en el aprendizaje supervisado completo, que requiere anotaciones de pose de verdad de terreno costosas. En este trabajo, proponemos GeoDistill, un marco de autodistilación débilmente supervisado guiado por geometría que utiliza el aprendizaje maestro-estudiante con enmascaramiento basado en el campo de visión (FoV) para mejorar el aprendizaje de características locales para una localización entre vistas robusta. En GeoDistill, el modelo maestro localiza una imagen panorámica, mientras que el modelo estudiante predice ubicaciones a partir de una contraparte de FoV limitado creada mediante enmascaramiento basado en FoV. Al alinear las predicciones del estudiante con las del maestro, el estudiante se enfoca en características clave como las líneas de carril e ignora regiones sin textura, como las carreteras. Esto resulta en predicciones más precisas y una reducción de la incertidumbre, independientemente de si las imágenes de consulta son panorámicas o de FoV limitado. Nuestros experimentos muestran que GeoDistill mejora significativamente el rendimiento de localización en diferentes marcos de trabajo. Además, introducimos una novedosa red de estimación de orientación que predice la orientación relativa sin requerir una verdad de terreno precisa de la posición plana. GeoDistill ofrece una solución escalable y eficiente para los desafíos de localización entre vistas en el mundo real. El código y el modelo se pueden encontrar en https://github.com/tongshw/GeoDistill.
English
Cross-view localization, the task of estimating a camera's 3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with satellite images, is crucial for large-scale outdoor applications like autonomous navigation and augmented reality. Existing methods often rely on fully supervised learning, which requires costly ground-truth pose annotations. In this work, we propose GeoDistill, a Geometry guided weakly supervised self distillation framework that uses teacher-student learning with Field-of-View (FoV)-based masking to enhance local feature learning for robust cross-view localization. In GeoDistill, the teacher model localizes a panoramic image, while the student model predicts locations from a limited FoV counterpart created by FoV-based masking. By aligning the student's predictions with those of the teacher, the student focuses on key features like lane lines and ignores textureless regions, such as roads. This results in more accurate predictions and reduced uncertainty, regardless of whether the query images are panoramas or limited FoV images. Our experiments show that GeoDistill significantly improves localization performance across different frameworks. Additionally, we introduce a novel orientation estimation network that predicts relative orientation without requiring precise planar position ground truth. GeoDistill provides a scalable and efficient solution for real-world cross-view localization challenges. Code and model can be found at https://github.com/tongshw/GeoDistill.
PDF11July 22, 2025