DepthMaster: Het temmen van diffusiemodellen voor monoculair diepteschatting.

Samenvatting

Monoculaire diepteschatting binnen het diffusie-denoising paradigma toont een indrukwekkend vermogen tot generalisatie, maar kampt met een lage inferentiesnelheid. Recente methoden nemen een deterministisch paradigma in één stap aan om de inferentie-efficiëntie te verbeteren terwijl ze vergelijkbare prestaties behouden. Ze zien echter de kloof tussen generatieve en discriminatieve kenmerken over het hoofd, wat leidt tot suboptimale resultaten. In dit werk stellen we DepthMaster voor, een enkelstaps diffusiemodel dat is ontworpen om generatieve kenmerken aan te passen voor de discriminatieve diepteschattingstaak. Ten eerste stellen we voor om overpassing aan textuurdetails, geïntroduceerd door generatieve kenmerken, te verminderen door een Feature Alignment module voor te stellen, die hoogwaardige semantische kenmerken opneemt om de representatiecapaciteit van het denoisingnetwerk te verbeteren. Ten tweede stellen we voor om het gebrek aan fijnkorrelige details in het enkelstaps deterministische kader aan te pakken door een Fourier Enhancement module voor te stellen om adaptief het evenwicht tussen laagfrequente structuur en hoogfrequente details te balanceren. We hanteren een tweefasige trainingsstrategie om het volledige potentieel van de twee modules te benutten. In de eerste fase richten we ons op het leren van de wereldwijde scènestructuur met behulp van de Feature Alignment module, terwijl we in de tweede fase de Fourier Enhancement module benutten om de visuele kwaliteit te verbeteren. Dankzij deze inspanningen behaalt ons model state-of-the-art prestaties op het gebied van generalisatie en detailbehoud, waarbij het andere op diffusie gebaseerde methoden overtreft op verschillende datasets. Onze projectpagina is te vinden op https://indu1ge.github.io/DepthMaster_page.

English

Monocular depth estimation within the diffusion-denoising paradigm demonstrates impressive generalization ability but suffers from low inference speed. Recent methods adopt a single-step deterministic paradigm to improve inference efficiency while maintaining comparable performance. However, they overlook the gap between generative and discriminative features, leading to suboptimal results. In this work, we propose DepthMaster, a single-step diffusion model designed to adapt generative features for the discriminative depth estimation task. First, to mitigate overfitting to texture details introduced by generative features, we propose a Feature Alignment module, which incorporates high-quality semantic features to enhance the denoising network's representation capability. Second, to address the lack of fine-grained details in the single-step deterministic framework, we propose a Fourier Enhancement module to adaptively balance low-frequency structure and high-frequency details. We adopt a two-stage training strategy to fully leverage the potential of the two modules. In the first stage, we focus on learning the global scene structure with the Feature Alignment module, while in the second stage, we exploit the Fourier Enhancement module to improve the visual quality. Through these efforts, our model achieves state-of-the-art performance in terms of generalization and detail preservation, outperforming other diffusion-based methods across various datasets. Our project page can be found at https://indu1ge.github.io/DepthMaster_page.

DepthMaster: Het temmen van diffusiemodellen voor monoculair diepteschatting.

DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Samenvatting

Summary

Support

Support