GeoDistill: Auto-Distilação Guiada por Geometria para Localização Intervista com Supervisão Fraca
GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization
July 15, 2025
Autores: Shaowen Tong, Zimin Xia, Alexandre Alahi, Xuming He, Yujiao Shi
cs.AI
Resumo
A localização cruzada de visão, a tarefa de estimar a pose de 3 graus de liberdade (3-DoF) de uma câmera ao alinhar imagens em nível do solo com imagens de satélite, é crucial para aplicações externas em grande escala, como navegação autônoma e realidade aumentada. Os métodos existentes frequentemente dependem de aprendizado totalmente supervisionado, que requer anotações de pose de verdade terrestre (ground truth) custosas. Neste trabalho, propomos o GeoDistill, uma estrutura de auto-distilação fracamente supervisionada guiada por geometria que utiliza aprendizado professor-aluno com máscaras baseadas no Campo de Visão (FoV) para aprimorar o aprendizado de características locais para uma localização cruzada de visão robusta. No GeoDistill, o modelo professor localiza uma imagem panorâmica, enquanto o modelo aluno prevê localizações a partir de uma contraparte com FoV limitado criada por máscaras baseadas no FoV. Ao alinhar as previsões do aluno com as do professor, o aluno se concentra em características-chave, como linhas de faixa, e ignora regiões sem textura, como estradas. Isso resulta em previsões mais precisas e redução da incerteza, independentemente de as imagens de consulta serem panoramas ou imagens com FoV limitado. Nossos experimentos mostram que o GeoDistill melhora significativamente o desempenho de localização em diferentes estruturas. Além disso, introduzimos uma nova rede de estimativa de orientação que prevê a orientação relativa sem exigir a verdade terrestre de posição planar precisa. O GeoDistill oferece uma solução escalável e eficiente para os desafios de localização cruzada de visão no mundo real. O código e o modelo podem ser encontrados em https://github.com/tongshw/GeoDistill.
English
Cross-view localization, the task of estimating a camera's
3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with
satellite images, is crucial for large-scale outdoor applications like
autonomous navigation and augmented reality. Existing methods often rely on
fully supervised learning, which requires costly ground-truth pose annotations.
In this work, we propose GeoDistill, a Geometry guided weakly supervised self
distillation framework that uses teacher-student learning with Field-of-View
(FoV)-based masking to enhance local feature learning for robust cross-view
localization. In GeoDistill, the teacher model localizes a panoramic image,
while the student model predicts locations from a limited FoV counterpart
created by FoV-based masking. By aligning the student's predictions with those
of the teacher, the student focuses on key features like lane lines and ignores
textureless regions, such as roads. This results in more accurate predictions
and reduced uncertainty, regardless of whether the query images are panoramas
or limited FoV images. Our experiments show that GeoDistill significantly
improves localization performance across different frameworks. Additionally, we
introduce a novel orientation estimation network that predicts relative
orientation without requiring precise planar position ground truth. GeoDistill
provides a scalable and efficient solution for real-world cross-view
localization challenges. Code and model can be found at
https://github.com/tongshw/GeoDistill.