ChatPaper.aiChatPaper

Depth Anywhere : Amélioration de l'estimation de la profondeur monoculaire 360° via la distillation de perspective et l'augmentation de données non étiquetées

Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation

June 18, 2024
Auteurs: Ning-Hsu Wang, Yu-Lun Liu
cs.AI

Résumé

L'estimation précise de la profondeur dans les images à 360 degrés est cruciale pour la réalité virtuelle, la navigation autonome et les applications multimédias immersives. Les méthodes existantes d'estimation de profondeur conçues pour les images en perspective échouent lorsqu'elles sont appliquées aux images à 360 degrés en raison des différentes projections de caméra et des distorsions, tandis que les méthodes spécifiques aux images à 360 degrés sont moins performantes en raison du manque de paires de données étiquetées. Nous proposons un nouveau cadre d'estimation de la profondeur qui utilise efficacement des données à 360 degrés non étiquetées. Notre approche utilise des modèles d'estimation de profondeur en perspective de pointe comme modèles enseignants pour générer des pseudo-étiquettes via une technique de projection cubique à six faces, permettant un étiquetage efficace de la profondeur dans les images à 360 degrés. Cette méthode tire parti de la disponibilité croissante de grands ensembles de données. Notre approche comprend deux étapes principales : la génération hors ligne de masques pour les régions invalides et un régime d'entraînement semi-supervisé conjoint en ligne. Nous avons testé notre approche sur des ensembles de données de référence tels que Matterport3D et Stanford2D3D, montrant des améliorations significatives dans la précision de l'estimation de la profondeur, en particulier dans les scénarios zero-shot. Notre pipeline d'entraînement proposé peut améliorer tout estimateur de profondeur monoculaire à 360 degrés et démontre un transfert de connaissances efficace entre différentes projections de caméra et types de données. Consultez notre page de projet pour les résultats : https://albert100121.github.io/Depth-Anywhere/
English
Accurately estimating depth in 360-degree imagery is crucial for virtual reality, autonomous navigation, and immersive media applications. Existing depth estimation methods designed for perspective-view imagery fail when applied to 360-degree images due to different camera projections and distortions, whereas 360-degree methods perform inferior due to the lack of labeled data pairs. We propose a new depth estimation framework that utilizes unlabeled 360-degree data effectively. Our approach uses state-of-the-art perspective depth estimation models as teacher models to generate pseudo labels through a six-face cube projection technique, enabling efficient labeling of depth in 360-degree images. This method leverages the increasing availability of large datasets. Our approach includes two main stages: offline mask generation for invalid regions and an online semi-supervised joint training regime. We tested our approach on benchmark datasets such as Matterport3D and Stanford2D3D, showing significant improvements in depth estimation accuracy, particularly in zero-shot scenarios. Our proposed training pipeline can enhance any 360 monocular depth estimator and demonstrates effective knowledge transfer across different camera projections and data types. See our project page for results: https://albert100121.github.io/Depth-Anywhere/

Summary

AI-Generated Summary

PDF512December 4, 2024