DepthMaster : Apprivoiser les modèles de diffusion pour l'estimation de profondeur monoculaire
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
January 5, 2025
Auteurs: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI
Résumé
L'estimation de profondeur monoculaire dans le cadre de la débruitage par diffusion démontre une impressionnante capacité de généralisation mais souffre d'une faible vitesse d'inférence. Les méthodes récentes adoptent un paradigme déterministe en une seule étape pour améliorer l'efficacité de l'inférence tout en maintenant des performances comparables. Cependant, elles négligent l'écart entre les caractéristiques génératives et discriminatives, conduisant à des résultats sous-optimaux. Dans ce travail, nous proposons DepthMaster, un modèle de diffusion en une seule étape conçu pour adapter les caractéristiques génératives à la tâche d'estimation de profondeur discriminative. Tout d'abord, pour atténuer le surajustement aux détails de texture introduits par les caractéristiques génératives, nous proposons un module d'Alignement des Caractéristiques, qui intègre des caractéristiques sémantiques de haute qualité pour améliorer la capacité de représentation du réseau de débruitage. Deuxièmement, pour pallier le manque de détails fins dans le cadre déterministe en une seule étape, nous proposons un module d'Amélioration de Fourier pour équilibrer de manière adaptative la structure à basse fréquence et les détails à haute fréquence. Nous adoptons une stratégie d'entraînement en deux étapes pour exploiter pleinement le potentiel des deux modules. Dans la première étape, nous nous concentrons sur l'apprentissage de la structure de scène globale avec le module d'Alignement des Caractéristiques, tandis que dans la deuxième étape, nous exploitons le module d'Amélioration de Fourier pour améliorer la qualité visuelle. Grâce à ces efforts, notre modèle atteint des performances de pointe en termes de généralisation et de préservation des détails, surpassant les autres méthodes basées sur la diffusion à travers divers ensembles de données. Notre page de projet est disponible sur https://indu1ge.github.io/DepthMaster_page.
English
Monocular depth estimation within the diffusion-denoising paradigm
demonstrates impressive generalization ability but suffers from low inference
speed. Recent methods adopt a single-step deterministic paradigm to improve
inference efficiency while maintaining comparable performance. However, they
overlook the gap between generative and discriminative features, leading to
suboptimal results. In this work, we propose DepthMaster, a single-step
diffusion model designed to adapt generative features for the discriminative
depth estimation task. First, to mitigate overfitting to texture details
introduced by generative features, we propose a Feature Alignment module, which
incorporates high-quality semantic features to enhance the denoising network's
representation capability. Second, to address the lack of fine-grained details
in the single-step deterministic framework, we propose a Fourier Enhancement
module to adaptively balance low-frequency structure and high-frequency
details. We adopt a two-stage training strategy to fully leverage the potential
of the two modules. In the first stage, we focus on learning the global scene
structure with the Feature Alignment module, while in the second stage, we
exploit the Fourier Enhancement module to improve the visual quality. Through
these efforts, our model achieves state-of-the-art performance in terms of
generalization and detail preservation, outperforming other diffusion-based
methods across various datasets. Our project page can be found at
https://indu1ge.github.io/DepthMaster_page.Summary
AI-Generated Summary