DepthMaster: Domando Modelos de Difusión para la Estimación de Profundidad Monocular

Resumen

La estimación de profundidad monocular dentro del paradigma de difusión-denoising muestra una impresionante capacidad de generalización pero sufre de baja velocidad de inferencia. Métodos recientes adoptan un paradigma determinista de un solo paso para mejorar la eficiencia de inferencia manteniendo un rendimiento comparable. Sin embargo, pasan por alto la brecha entre características generativas y discriminativas, lo que lleva a resultados subóptimos. En este trabajo, proponemos DepthMaster, un modelo de difusión de un solo paso diseñado para adaptar características generativas para la tarea de estimación de profundidad discriminativa. Primero, para mitigar el sobreajuste a los detalles de textura introducidos por características generativas, proponemos un módulo de Alineación de Características, que incorpora características semánticas de alta calidad para mejorar la capacidad de representación de la red de denoising. Segundo, para abordar la falta de detalles finos en el marco determinista de un solo paso, proponemos un módulo de Mejora de Fourier para equilibrar de forma adaptativa la estructura de baja frecuencia y los detalles de alta frecuencia. Adoptamos una estrategia de entrenamiento de dos etapas para aprovechar completamente el potencial de los dos módulos. En la primera etapa, nos enfocamos en aprender la estructura global de la escena con el módulo de Alineación de Características, mientras que en la segunda etapa, explotamos el módulo de Mejora de Fourier para mejorar la calidad visual. A través de estos esfuerzos, nuestro modelo logra un rendimiento de vanguardia en términos de generalización y preservación de detalles, superando a otros métodos basados en difusión en varios conjuntos de datos. Nuestra página del proyecto se puede encontrar en https://indu1ge.github.io/DepthMaster_page.

English

Monocular depth estimation within the diffusion-denoising paradigm demonstrates impressive generalization ability but suffers from low inference speed. Recent methods adopt a single-step deterministic paradigm to improve inference efficiency while maintaining comparable performance. However, they overlook the gap between generative and discriminative features, leading to suboptimal results. In this work, we propose DepthMaster, a single-step diffusion model designed to adapt generative features for the discriminative depth estimation task. First, to mitigate overfitting to texture details introduced by generative features, we propose a Feature Alignment module, which incorporates high-quality semantic features to enhance the denoising network's representation capability. Second, to address the lack of fine-grained details in the single-step deterministic framework, we propose a Fourier Enhancement module to adaptively balance low-frequency structure and high-frequency details. We adopt a two-stage training strategy to fully leverage the potential of the two modules. In the first stage, we focus on learning the global scene structure with the Feature Alignment module, while in the second stage, we exploit the Fourier Enhancement module to improve the visual quality. Through these efforts, our model achieves state-of-the-art performance in terms of generalization and detail preservation, outperforming other diffusion-based methods across various datasets. Our project page can be found at https://indu1ge.github.io/DepthMaster_page.

DepthMaster: Domando Modelos de Difusión para la Estimación de Profundidad Monocular

DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Resumen

Support