Глубина везде: улучшение оценки глубины на 360 монокулярных изображениях с помощью дистилляции перспективы и аугментации неразмеченных данных.
Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation
June 18, 2024
Авторы: Ning-Hsu Wang, Yu-Lun Liu
cs.AI
Аннотация
Точная оценка глубины на изображениях 360 градусов критически важна для виртуальной реальности, автономной навигации и приложений иммерсивных медиа. Существующие методы оценки глубины, разработанные для изображений с перспективным видом, терпят неудачу при применении к изображениям 360 градусов из-за различных проекций камеры и искажений, в то время как методы для 360 градусов проявляются менее эффективно из-за отсутствия размеченных пар данных. Мы предлагаем новую структуру оценки глубины, которая эффективно использует неразмеченные данные 360 градусов. Наш подход использует передовые модели оценки глубины в перспективе в качестве учителей для генерации псевдо-меток с помощью техники проекции шестигранного куба, обеспечивая эффективную разметку глубины на изображениях 360 градусов. Этот метод использует увеличивающееся количество крупных наборов данных. Наш подход включает два основных этапа: оффлайн-генерацию масок для недопустимых областей и онлайн-полу-надзорный совместный режим обучения. Мы протестировали наш подход на стандартных наборах данных, таких как Matterport3D и Stanford2D3D, показав значительное улучшение точности оценки глубины, особенно в сценариях с нулевым обучением. Наша предложенная обучающая платформа может улучшить любой монокулярный оценщик глубины 360 и продемонстрировать эффективный перенос знаний между различными проекциями камер и типами данных. См. нашу страницу проекта для результатов: https://albert100121.github.io/Depth-Anywhere/
English
Accurately estimating depth in 360-degree imagery is crucial for virtual
reality, autonomous navigation, and immersive media applications. Existing
depth estimation methods designed for perspective-view imagery fail when
applied to 360-degree images due to different camera projections and
distortions, whereas 360-degree methods perform inferior due to the lack of
labeled data pairs. We propose a new depth estimation framework that utilizes
unlabeled 360-degree data effectively. Our approach uses state-of-the-art
perspective depth estimation models as teacher models to generate pseudo labels
through a six-face cube projection technique, enabling efficient labeling of
depth in 360-degree images. This method leverages the increasing availability
of large datasets. Our approach includes two main stages: offline mask
generation for invalid regions and an online semi-supervised joint training
regime. We tested our approach on benchmark datasets such as Matterport3D and
Stanford2D3D, showing significant improvements in depth estimation accuracy,
particularly in zero-shot scenarios. Our proposed training pipeline can enhance
any 360 monocular depth estimator and demonstrates effective knowledge transfer
across different camera projections and data types. See our project page for
results: https://albert100121.github.io/Depth-Anywhere/Summary
AI-Generated Summary