ChatPaper.aiChatPaper

Métrique de profondeur Zero-Shot avec un modèle de diffusion conditionné par le champ de vision

Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model

December 20, 2023
Auteurs: Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet
cs.AI

Résumé

Bien que les méthodes d'estimation de la profondeur monoculaire aient réalisé des progrès significatifs sur les benchmarks standards, l'estimation métrique de la profondeur en zero-shot reste un problème non résolu. Les défis incluent la modélisation conjointe des scènes intérieures et extérieures, qui présentent souvent des distributions significativement différentes de RGB et de profondeur, ainsi que l'ambiguïté de l'échelle de profondeur due aux intrinsèques de caméra inconnues. Des travaux récents ont proposé des architectures multi-têtes spécialisées pour modéliser conjointement les scènes intérieures et extérieures. En revanche, nous préconisons un modèle de diffusion générique et agnostique à la tâche, avec plusieurs avancées telles qu'une paramétrisation de la profondeur en échelle logarithmique pour permettre une modélisation conjointe des scènes intérieures et extérieures, un conditionnement sur le champ de vision (FOV) pour gérer l'ambiguïté d'échelle, et une augmentation synthétique du FOV pendant l'entraînement pour généraliser au-delà des intrinsèques de caméra limitées dans les ensembles de données d'entraînement. De plus, en utilisant un mélange d'entraînement plus diversifié que ce qui est courant, ainsi qu'une paramétrisation efficace de la diffusion, notre méthode, DMD (Diffusion for Metric Depth), réalise une réduction de 25 % de l'erreur relative (REL) sur les ensembles de données intérieures en zero-shot et de 33 % sur les ensembles de données extérieures en zero-shot par rapport à l'état de l'art actuel, en utilisant seulement un petit nombre d'étapes de débruitage. Pour un aperçu, voir https://diffusion-vision.github.io/dmd.
English
While methods for monocular depth estimation have made significant strides on standard benchmarks, zero-shot metric depth estimation remains unsolved. Challenges include the joint modeling of indoor and outdoor scenes, which often exhibit significantly different distributions of RGB and depth, and the depth-scale ambiguity due to unknown camera intrinsics. Recent work has proposed specialized multi-head architectures for jointly modeling indoor and outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion model, with several advancements such as log-scale depth parameterization to enable joint modeling of indoor and outdoor scenes, conditioning on the field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV during training to generalize beyond the limited camera intrinsics in training datasets. Furthermore, by employing a more diverse training mixture than is common, and an efficient diffusion parameterization, our method, DMD (Diffusion for Metric Depth) achieves a 25\% reduction in relative error (REL) on zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the current SOTA using only a small number of denoising steps. For an overview see https://diffusion-vision.github.io/dmd
PDF284December 15, 2024