BetterDepth: Refinador de Difusión Plug-and-Play para Estimación de Profundidad Monocular sin Entrenamiento

Resumen

Al entrenar sobre conjuntos de datos a gran escala, los métodos de estimación de profundidad monocular sin disparo (MDE, por sus siglas en inglés) muestran un rendimiento robusto en entornos no controlados, pero a menudo sufren de detalles insuficientemente precisos. Aunque los enfoques recientes de MDE basados en difusión exhiben una atractiva capacidad de extracción de detalles, aún luchan en escenas geométricamente desafiantes debido a la dificultad de obtener priors geométricos robustos a partir de conjuntos de datos diversos. Para aprovechar los méritos complementarios de ambos mundos, proponemos BetterDepth para lograr eficientemente un rendimiento de MDE geométricamente correcto e invariante a afinidades, capturando detalles detallados. Específicamente, BetterDepth es un refinador basado en difusión condicional que toma la predicción de modelos pre-entrenados de MDE como condicionante de profundidad, en el cual el contexto de profundidad global está bien capturado, y refina iterativamente los detalles basados en la imagen de entrada. Para el entrenamiento de dicho refinador, proponemos métodos de pre-alineación global y enmascaramiento de parches locales para garantizar la fidelidad de BetterDepth al condicionamiento de profundidad mientras aprende a capturar detalles detallados de la escena. Mediante un entrenamiento eficiente en conjuntos de datos sintéticos a pequeña escala, BetterDepth logra un rendimiento de vanguardia en MDE sin disparo en diversos conjuntos de datos públicos y escenas no controladas. Además, BetterDepth puede mejorar el rendimiento de otros modelos de MDE de manera plug-and-play sin necesidad de un re-entrenamiento adicional.

English

By training over large-scale datasets, zero-shot monocular depth estimation (MDE) methods show robust performance in the wild but often suffer from insufficiently precise details. Although recent diffusion-based MDE approaches exhibit appealing detail extraction ability, they still struggle in geometrically challenging scenes due to the difficulty of gaining robust geometric priors from diverse datasets. To leverage the complementary merits of both worlds, we propose BetterDepth to efficiently achieve geometrically correct affine-invariant MDE performance while capturing fine-grained details. Specifically, BetterDepth is a conditional diffusion-based refiner that takes the prediction from pre-trained MDE models as depth conditioning, in which the global depth context is well-captured, and iteratively refines details based on the input image. For the training of such a refiner, we propose global pre-alignment and local patch masking methods to ensure the faithfulness of BetterDepth to depth conditioning while learning to capture fine-grained scene details. By efficient training on small-scale synthetic datasets, BetterDepth achieves state-of-the-art zero-shot MDE performance on diverse public datasets and in-the-wild scenes. Moreover, BetterDepth can improve the performance of other MDE models in a plug-and-play manner without additional re-training.

BetterDepth: Refinador de Difusión Plug-and-Play para Estimación de Profundidad Monocular sin Entrenamiento

BetterDepth: Plug-and-Play Diffusion Refiner for Zero-Shot Monocular Depth Estimation

Resumen

Support