BetterDepth: Refinador de Difusión Plug-and-Play para Estimación de Profundidad Monocular sin Entrenamiento
BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation
July 25, 2024
Autores: Xiang Zhang, Bingxin Ke, Hayko Riemenschneider, Nando Metzger, Anton Obukhov, Markus Gross, Konrad Schindler, Christopher Schroers
cs.AI
Resumen
Al entrenar sobre conjuntos de datos a gran escala, los métodos de estimación de profundidad monocular sin disparo (MDE, por sus siglas en inglés) muestran un rendimiento robusto en entornos no controlados, pero a menudo sufren de detalles insuficientemente precisos. Aunque los enfoques recientes de MDE basados en difusión exhiben una atractiva capacidad de extracción de detalles, aún luchan en escenas geométricamente desafiantes debido a la dificultad de obtener priors geométricos robustos a partir de conjuntos de datos diversos. Para aprovechar los méritos complementarios de ambos mundos, proponemos BetterDepth para lograr eficientemente un rendimiento de MDE geométricamente correcto e invariante a afinidades, capturando detalles detallados. Específicamente, BetterDepth es un refinador basado en difusión condicional que toma la predicción de modelos pre-entrenados de MDE como condicionante de profundidad, en el cual el contexto de profundidad global está bien capturado, y refina iterativamente los detalles basados en la imagen de entrada. Para el entrenamiento de dicho refinador, proponemos métodos de pre-alineación global y enmascaramiento de parches locales para garantizar la fidelidad de BetterDepth al condicionamiento de profundidad mientras aprende a capturar detalles detallados de la escena. Mediante un entrenamiento eficiente en conjuntos de datos sintéticos a pequeña escala, BetterDepth logra un rendimiento de vanguardia en MDE sin disparo en diversos conjuntos de datos públicos y escenas no controladas. Además, BetterDepth puede mejorar el rendimiento de otros modelos de MDE de manera plug-and-play sin necesidad de un re-entrenamiento adicional.
English
By training over large-scale datasets, zero-shot monocular depth estimation
(MDE) methods show robust performance in the wild but often suffer from
insufficiently precise details. Although recent diffusion-based MDE approaches
exhibit appealing detail extraction ability, they still struggle in
geometrically challenging scenes due to the difficulty of gaining robust
geometric priors from diverse datasets. To leverage the complementary merits of
both worlds, we propose BetterDepth to efficiently achieve geometrically
correct affine-invariant MDE performance while capturing fine-grained details.
Specifically, BetterDepth is a conditional diffusion-based refiner that takes
the prediction from pre-trained MDE models as depth conditioning, in which the
global depth context is well-captured, and iteratively refines details based on
the input image. For the training of such a refiner, we propose global
pre-alignment and local patch masking methods to ensure the faithfulness of
BetterDepth to depth conditioning while learning to capture fine-grained scene
details. By efficient training on small-scale synthetic datasets, BetterDepth
achieves state-of-the-art zero-shot MDE performance on diverse public datasets
and in-the-wild scenes. Moreover, BetterDepth can improve the performance of
other MDE models in a plug-and-play manner without additional re-training.Summary
AI-Generated Summary