DepthMaster: Het temmen van diffusiemodellen voor monoculair diepteschatting.
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation
January 5, 2025
Auteurs: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI
Samenvatting
Monoculaire diepteschatting binnen het diffusie-denoising paradigma toont een indrukwekkend vermogen tot generalisatie, maar kampt met een lage inferentiesnelheid. Recente methoden nemen een deterministisch paradigma in één stap aan om de inferentie-efficiëntie te verbeteren terwijl ze vergelijkbare prestaties behouden. Ze zien echter de kloof tussen generatieve en discriminatieve kenmerken over het hoofd, wat leidt tot suboptimale resultaten. In dit werk stellen we DepthMaster voor, een enkelstaps diffusiemodel dat is ontworpen om generatieve kenmerken aan te passen voor de discriminatieve diepteschattingstaak. Ten eerste stellen we voor om overpassing aan textuurdetails, geïntroduceerd door generatieve kenmerken, te verminderen door een Feature Alignment module voor te stellen, die hoogwaardige semantische kenmerken opneemt om de representatiecapaciteit van het denoisingnetwerk te verbeteren. Ten tweede stellen we voor om het gebrek aan fijnkorrelige details in het enkelstaps deterministische kader aan te pakken door een Fourier Enhancement module voor te stellen om adaptief het evenwicht tussen laagfrequente structuur en hoogfrequente details te balanceren. We hanteren een tweefasige trainingsstrategie om het volledige potentieel van de twee modules te benutten. In de eerste fase richten we ons op het leren van de wereldwijde scènestructuur met behulp van de Feature Alignment module, terwijl we in de tweede fase de Fourier Enhancement module benutten om de visuele kwaliteit te verbeteren. Dankzij deze inspanningen behaalt ons model state-of-the-art prestaties op het gebied van generalisatie en detailbehoud, waarbij het andere op diffusie gebaseerde methoden overtreft op verschillende datasets. Onze projectpagina is te vinden op https://indu1ge.github.io/DepthMaster_page.
English
Monocular depth estimation within the diffusion-denoising paradigm
demonstrates impressive generalization ability but suffers from low inference
speed. Recent methods adopt a single-step deterministic paradigm to improve
inference efficiency while maintaining comparable performance. However, they
overlook the gap between generative and discriminative features, leading to
suboptimal results. In this work, we propose DepthMaster, a single-step
diffusion model designed to adapt generative features for the discriminative
depth estimation task. First, to mitigate overfitting to texture details
introduced by generative features, we propose a Feature Alignment module, which
incorporates high-quality semantic features to enhance the denoising network's
representation capability. Second, to address the lack of fine-grained details
in the single-step deterministic framework, we propose a Fourier Enhancement
module to adaptively balance low-frequency structure and high-frequency
details. We adopt a two-stage training strategy to fully leverage the potential
of the two modules. In the first stage, we focus on learning the global scene
structure with the Feature Alignment module, while in the second stage, we
exploit the Fourier Enhancement module to improve the visual quality. Through
these efforts, our model achieves state-of-the-art performance in terms of
generalization and detail preservation, outperforming other diffusion-based
methods across various datasets. Our project page can be found at
https://indu1ge.github.io/DepthMaster_page.Summary
AI-Generated Summary