DepthMaster: Die Bändigung von Diffusionsmodellen für die monokulare Tiefenschätzung
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
January 5, 2025
Autoren: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI
Zusammenfassung
Die monokulare Tiefenschätzung im Rahmen des Diffusions-Denoising-Paradigmas zeigt eine beeindruckende Generalisierungsfähigkeit, leidet jedoch unter geringer Inferenzgeschwindigkeit. Aktuelle Methoden übernehmen ein einstufiges deterministisches Paradigma, um die Inferenzeffizienz zu verbessern, während sie eine vergleichbare Leistung beibehalten. Allerdings wird die Kluft zwischen generativen und diskriminativen Merkmalen übersehen, was zu suboptimalen Ergebnissen führt. In dieser Arbeit schlagen wir DepthMaster vor, ein einstufiges Diffusionsmodell, das darauf ausgelegt ist, generative Merkmale für die diskriminative Tiefenschätzungsaufgabe anzupassen. Zunächst schlagen wir zur Verringerung von Überanpassung an Texturdetails, die durch generative Merkmale eingeführt werden, ein Feature Alignment-Modul vor, das hochwertige semantische Merkmale integriert, um die Repräsentationsfähigkeit des Denoising-Netzwerks zu verbessern. Zweitens schlagen wir zur Behebung des Mangels an feinkörnigen Details im einstufigen deterministischen Rahmen ein Fourier Enhancement-Modul vor, um das Gleichgewicht zwischen niederfrequenten Strukturen und hochfrequenten Details adaptiv auszubalancieren. Wir übernehmen eine zweistufige Schulungsstrategie, um das volle Potenzial der beiden Module optimal zu nutzen. In der ersten Stufe konzentrieren wir uns auf das Erlernen der globalen Szenenstruktur mit dem Feature Alignment-Modul, während wir in der zweiten Stufe das Fourier Enhancement-Modul nutzen, um die visuelle Qualität zu verbessern. Durch diese Bemühungen erreicht unser Modell Spitzenleistungen in Bezug auf Generalisierung und Detailerhaltung und übertrifft andere auf Diffusion basierende Methoden auf verschiedenen Datensätzen. Unsere Projektseite ist unter https://indu1ge.github.io/DepthMaster_page zu finden.
English
Monocular depth estimation within the diffusion-denoising paradigm
demonstrates impressive generalization ability but suffers from low inference
speed. Recent methods adopt a single-step deterministic paradigm to improve
inference efficiency while maintaining comparable performance. However, they
overlook the gap between generative and discriminative features, leading to
suboptimal results. In this work, we propose DepthMaster, a single-step
diffusion model designed to adapt generative features for the discriminative
depth estimation task. First, to mitigate overfitting to texture details
introduced by generative features, we propose a Feature Alignment module, which
incorporates high-quality semantic features to enhance the denoising network's
representation capability. Second, to address the lack of fine-grained details
in the single-step deterministic framework, we propose a Fourier Enhancement
module to adaptively balance low-frequency structure and high-frequency
details. We adopt a two-stage training strategy to fully leverage the potential
of the two modules. In the first stage, we focus on learning the global scene
structure with the Feature Alignment module, while in the second stage, we
exploit the Fourier Enhancement module to improve the visual quality. Through
these efforts, our model achieves state-of-the-art performance in terms of
generalization and detail preservation, outperforming other diffusion-based
methods across various datasets. Our project page can be found at
https://indu1ge.github.io/DepthMaster_page.Summary
AI-Generated Summary