Depth Anywhere : Amélioration de l'estimation de la profondeur monoculaire 360° via la distillation de perspective et l'augmentation de données non étiquetées
Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation
June 18, 2024
Auteurs: Ning-Hsu Wang, Yu-Lun Liu
cs.AI
Résumé
L'estimation précise de la profondeur dans les images à 360 degrés est cruciale pour la réalité virtuelle, la navigation autonome et les applications multimédias immersives. Les méthodes existantes d'estimation de profondeur conçues pour les images en perspective échouent lorsqu'elles sont appliquées aux images à 360 degrés en raison des différentes projections de caméra et des distorsions, tandis que les méthodes spécifiques aux images à 360 degrés sont moins performantes en raison du manque de paires de données étiquetées. Nous proposons un nouveau cadre d'estimation de la profondeur qui utilise efficacement des données à 360 degrés non étiquetées. Notre approche utilise des modèles d'estimation de profondeur en perspective de pointe comme modèles enseignants pour générer des pseudo-étiquettes via une technique de projection cubique à six faces, permettant un étiquetage efficace de la profondeur dans les images à 360 degrés. Cette méthode tire parti de la disponibilité croissante de grands ensembles de données. Notre approche comprend deux étapes principales : la génération hors ligne de masques pour les régions invalides et un régime d'entraînement semi-supervisé conjoint en ligne. Nous avons testé notre approche sur des ensembles de données de référence tels que Matterport3D et Stanford2D3D, montrant des améliorations significatives dans la précision de l'estimation de la profondeur, en particulier dans les scénarios zero-shot. Notre pipeline d'entraînement proposé peut améliorer tout estimateur de profondeur monoculaire à 360 degrés et démontre un transfert de connaissances efficace entre différentes projections de caméra et types de données. Consultez notre page de projet pour les résultats : https://albert100121.github.io/Depth-Anywhere/
English
Accurately estimating depth in 360-degree imagery is crucial for virtual
reality, autonomous navigation, and immersive media applications. Existing
depth estimation methods designed for perspective-view imagery fail when
applied to 360-degree images due to different camera projections and
distortions, whereas 360-degree methods perform inferior due to the lack of
labeled data pairs. We propose a new depth estimation framework that utilizes
unlabeled 360-degree data effectively. Our approach uses state-of-the-art
perspective depth estimation models as teacher models to generate pseudo labels
through a six-face cube projection technique, enabling efficient labeling of
depth in 360-degree images. This method leverages the increasing availability
of large datasets. Our approach includes two main stages: offline mask
generation for invalid regions and an online semi-supervised joint training
regime. We tested our approach on benchmark datasets such as Matterport3D and
Stanford2D3D, showing significant improvements in depth estimation accuracy,
particularly in zero-shot scenarios. Our proposed training pipeline can enhance
any 360 monocular depth estimator and demonstrates effective knowledge transfer
across different camera projections and data types. See our project page for
results: https://albert100121.github.io/Depth-Anywhere/Summary
AI-Generated Summary