DepthMaster: Domando Modelos de Difusión para la Estimación de Profundidad Monocular
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
January 5, 2025
Autores: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI
Resumen
La estimación de profundidad monocular dentro del paradigma de difusión-denoising muestra una impresionante capacidad de generalización pero sufre de baja velocidad de inferencia. Métodos recientes adoptan un paradigma determinista de un solo paso para mejorar la eficiencia de inferencia manteniendo un rendimiento comparable. Sin embargo, pasan por alto la brecha entre características generativas y discriminativas, lo que lleva a resultados subóptimos. En este trabajo, proponemos DepthMaster, un modelo de difusión de un solo paso diseñado para adaptar características generativas para la tarea de estimación de profundidad discriminativa. Primero, para mitigar el sobreajuste a los detalles de textura introducidos por características generativas, proponemos un módulo de Alineación de Características, que incorpora características semánticas de alta calidad para mejorar la capacidad de representación de la red de denoising. Segundo, para abordar la falta de detalles finos en el marco determinista de un solo paso, proponemos un módulo de Mejora de Fourier para equilibrar de forma adaptativa la estructura de baja frecuencia y los detalles de alta frecuencia. Adoptamos una estrategia de entrenamiento de dos etapas para aprovechar completamente el potencial de los dos módulos. En la primera etapa, nos enfocamos en aprender la estructura global de la escena con el módulo de Alineación de Características, mientras que en la segunda etapa, explotamos el módulo de Mejora de Fourier para mejorar la calidad visual. A través de estos esfuerzos, nuestro modelo logra un rendimiento de vanguardia en términos de generalización y preservación de detalles, superando a otros métodos basados en difusión en varios conjuntos de datos. Nuestra página del proyecto se puede encontrar en https://indu1ge.github.io/DepthMaster_page.
English
Monocular depth estimation within the diffusion-denoising paradigm
demonstrates impressive generalization ability but suffers from low inference
speed. Recent methods adopt a single-step deterministic paradigm to improve
inference efficiency while maintaining comparable performance. However, they
overlook the gap between generative and discriminative features, leading to
suboptimal results. In this work, we propose DepthMaster, a single-step
diffusion model designed to adapt generative features for the discriminative
depth estimation task. First, to mitigate overfitting to texture details
introduced by generative features, we propose a Feature Alignment module, which
incorporates high-quality semantic features to enhance the denoising network's
representation capability. Second, to address the lack of fine-grained details
in the single-step deterministic framework, we propose a Fourier Enhancement
module to adaptively balance low-frequency structure and high-frequency
details. We adopt a two-stage training strategy to fully leverage the potential
of the two modules. In the first stage, we focus on learning the global scene
structure with the Feature Alignment module, while in the second stage, we
exploit the Fourier Enhancement module to improve the visual quality. Through
these efforts, our model achieves state-of-the-art performance in terms of
generalization and detail preservation, outperforming other diffusion-based
methods across various datasets. Our project page can be found at
https://indu1ge.github.io/DepthMaster_page.