Métrica de Profundidad Zero-Shot con un Modelo de Difusión Condicionado por el Campo de Visión
Zero-Shot Metric Depth with a Field-of-View Conditioned Diffusion Model
December 20, 2023
Autores: Saurabh Saxena, Junhwa Hur, Charles Herrmann, Deqing Sun, David J. Fleet
cs.AI
Resumen
Si bien los métodos para la estimación de profundidad monocular han logrado avances significativos en los benchmarks estándar, la estimación de profundidad métrica sin datos previos (zero-shot) sigue sin resolverse. Los desafíos incluyen el modelado conjunto de escenas interiores y exteriores, que a menudo presentan distribuciones significativamente diferentes de RGB y profundidad, así como la ambigüedad en la escala de profundidad debido a los parámetros intrínsecos desconocidos de la cámara. Trabajos recientes han propuesto arquitecturas especializadas de múltiples cabezas para modelar conjuntamente escenas interiores y exteriores. En contraste, proponemos un modelo de difusión genérico y agnóstico a la tarea, con varias mejoras, como la parametrización de profundidad en escala logarítmica para permitir el modelado conjunto de escenas interiores y exteriores, la condición basada en el campo de visión (FOV) para manejar la ambigüedad de escala y la ampliación sintética del FOV durante el entrenamiento para generalizar más allá de los parámetros intrínsecos limitados de las cámaras en los conjuntos de datos de entrenamiento. Además, al emplear una mezcla de entrenamiento más diversa de lo habitual y una parametrización eficiente de difusión, nuestro método, DMD (Difusión para Profundidad Métrica), logra una reducción del 25% en el error relativo (REL) en conjuntos de datos zero-shot interiores y del 33% en conjuntos de datos zero-shot exteriores, superando el estado del arte actual (SOTA) utilizando solo un pequeño número de pasos de eliminación de ruido. Para una visión general, consulte https://diffusion-vision.github.io/dmd.
English
While methods for monocular depth estimation have made significant strides on
standard benchmarks, zero-shot metric depth estimation remains unsolved.
Challenges include the joint modeling of indoor and outdoor scenes, which often
exhibit significantly different distributions of RGB and depth, and the
depth-scale ambiguity due to unknown camera intrinsics. Recent work has
proposed specialized multi-head architectures for jointly modeling indoor and
outdoor scenes. In contrast, we advocate a generic, task-agnostic diffusion
model, with several advancements such as log-scale depth parameterization to
enable joint modeling of indoor and outdoor scenes, conditioning on the
field-of-view (FOV) to handle scale ambiguity and synthetically augmenting FOV
during training to generalize beyond the limited camera intrinsics in training
datasets. Furthermore, by employing a more diverse training mixture than is
common, and an efficient diffusion parameterization, our method, DMD (Diffusion
for Metric Depth) achieves a 25\% reduction in relative error (REL) on
zero-shot indoor and 33\% reduction on zero-shot outdoor datasets over the
current SOTA using only a small number of denoising steps. For an overview see
https://diffusion-vision.github.io/dmd