ChatPaper.aiChatPaper

GeoDistill: 약한 지도 학습 기반 교차 뷰 위치 인식을 위한 기하학적 가이드 자기 지식 증류

GeoDistill: Geometry-Guided Self-Distillation for Weakly Supervised Cross-View Localization

July 15, 2025
저자: Shaowen Tong, Zimin Xia, Alexandre Alahi, Xuming He, Yujiao Shi
cs.AI

초록

교차 시점 위치 추정(Cross-view localization)은 지상 수준 이미지와 위성 이미지를 정렬하여 카메라의 3자유도(3-DoF) 포즈를 추정하는 작업으로, 자율 주행 및 증강 현실과 같은 대규모 야외 애플리케이션에 있어 매우 중요합니다. 기존 방법들은 종종 비용이 많이 드는 정확한 포즈 주석이 필요한 완전 지도 학습에 의존합니다. 본 연구에서는 GeoDistill이라는 기하학적 지도를 활용한 약한 지도 자기 학습 프레임워크를 제안합니다. 이 프레임워크는 교사-학생 학습과 시야각(Field-of-View, FoV) 기반 마스킹을 사용하여 강력한 교차 시점 위치 추정을 위한 지역 특징 학습을 강화합니다. GeoDistill에서 교사 모델은 파노라마 이미지의 위치를 추정하고, 학생 모델은 FoV 기반 마스킹으로 생성된 제한된 시야각 이미지에서 위치를 예측합니다. 학생의 예측을 교사의 예측과 정렬함으로써, 학생 모델은 차선과 같은 주요 특징에 집중하고 도로와 같은 텍스처가 없는 영역을 무시합니다. 이는 쿼리 이미지가 파노라마인지 제한된 시야각 이미지인지에 관계없이 더 정확한 예측과 불확실성 감소를 가져옵니다. 우리의 실험 결과, GeoDistill은 다양한 프레임워크에서 위치 추정 성능을 크게 향상시킵니다. 또한, 정확한 평면 위치의 정답 데이터 없이도 상대적 방향을 예측하는 새로운 방향 추정 네트워크를 소개합니다. GeoDistill은 실제 세계의 교차 시점 위치 추정 문제에 대한 확장 가능하고 효율적인 솔루션을 제공합니다. 코드와 모델은 https://github.com/tongshw/GeoDistill에서 확인할 수 있습니다.
English
Cross-view localization, the task of estimating a camera's 3-degrees-of-freedom (3-DoF) pose by aligning ground-level images with satellite images, is crucial for large-scale outdoor applications like autonomous navigation and augmented reality. Existing methods often rely on fully supervised learning, which requires costly ground-truth pose annotations. In this work, we propose GeoDistill, a Geometry guided weakly supervised self distillation framework that uses teacher-student learning with Field-of-View (FoV)-based masking to enhance local feature learning for robust cross-view localization. In GeoDistill, the teacher model localizes a panoramic image, while the student model predicts locations from a limited FoV counterpart created by FoV-based masking. By aligning the student's predictions with those of the teacher, the student focuses on key features like lane lines and ignores textureless regions, such as roads. This results in more accurate predictions and reduced uncertainty, regardless of whether the query images are panoramas or limited FoV images. Our experiments show that GeoDistill significantly improves localization performance across different frameworks. Additionally, we introduce a novel orientation estimation network that predicts relative orientation without requiring precise planar position ground truth. GeoDistill provides a scalable and efficient solution for real-world cross-view localization challenges. Code and model can be found at https://github.com/tongshw/GeoDistill.
PDF11July 22, 2025