Depth Anywhere: 원근법 기반 지식 증류와 레이블 없는 데이터 증강을 통한 360도 단안 깊이 추정 향상
Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation
June 18, 2024
저자: Ning-Hsu Wang, Yu-Lun Liu
cs.AI
초록
360도 이미지에서 깊이를 정확하게 추정하는 것은 가상 현실, 자율 주행, 몰입형 미디어 애플리케이션에 있어 매우 중요합니다. 기존의 원근 시점 이미지를 위해 설계된 깊이 추정 방법들은 카메라 투영 방식과 왜곡의 차이로 인해 360도 이미지에 적용할 때 실패하는 반면, 360도 전용 방법들은 라벨링된 데이터 쌍의 부족으로 인해 성능이 떨어집니다. 우리는 라벨링되지 않은 360도 데이터를 효과적으로 활용하는 새로운 깊이 추정 프레임워크를 제안합니다. 우리의 접근 방식은 최신 원근 깊이 추정 모델을 교사 모델로 사용하여 육면체 투영 기법을 통해 가짜 라벨을 생성함으로써, 360도 이미지의 깊이를 효율적으로 라벨링할 수 있게 합니다. 이 방법은 대규모 데이터셋의 증가하는 가용성을 활용합니다. 우리의 접근 방식은 무효 영역에 대한 오프라인 마스크 생성과 온라인 준지도 학습 결합 훈련 체계라는 두 가지 주요 단계를 포함합니다. 우리는 Matterport3D와 Stanford2D3D와 같은 벤치마크 데이터셋에서 이 방법을 테스트하여, 특히 제로샷 시나리오에서 깊이 추정 정확도가 크게 향상됨을 보였습니다. 우리가 제안한 훈련 파이프라인은 모든 360도 단안 깊이 추정기를 향상시킬 수 있으며, 다양한 카메라 투영 방식과 데이터 유형 간의 효과적인 지식 전달을 입증합니다. 결과는 프로젝트 페이지에서 확인할 수 있습니다: https://albert100121.github.io/Depth-Anywhere/
English
Accurately estimating depth in 360-degree imagery is crucial for virtual
reality, autonomous navigation, and immersive media applications. Existing
depth estimation methods designed for perspective-view imagery fail when
applied to 360-degree images due to different camera projections and
distortions, whereas 360-degree methods perform inferior due to the lack of
labeled data pairs. We propose a new depth estimation framework that utilizes
unlabeled 360-degree data effectively. Our approach uses state-of-the-art
perspective depth estimation models as teacher models to generate pseudo labels
through a six-face cube projection technique, enabling efficient labeling of
depth in 360-degree images. This method leverages the increasing availability
of large datasets. Our approach includes two main stages: offline mask
generation for invalid regions and an online semi-supervised joint training
regime. We tested our approach on benchmark datasets such as Matterport3D and
Stanford2D3D, showing significant improvements in depth estimation accuracy,
particularly in zero-shot scenarios. Our proposed training pipeline can enhance
any 360 monocular depth estimator and demonstrates effective knowledge transfer
across different camera projections and data types. See our project page for
results: https://albert100121.github.io/Depth-Anywhere/Summary
AI-Generated Summary