ChatPaper.aiChatPaper

DepthMaster: Подчинение моделей диффузии для монокулярной оценки глубины

DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

January 5, 2025
Авторы: Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang
cs.AI

Аннотация

Оценка монокулярной глубины в рамках парадигмы диффузионного шумоподавления демонстрирует впечатляющую способность к обобщению, но страдает от низкой скорости вывода. Недавние методы принимают одношаговую детерминированную парадигму для улучшения эффективности вывода, сохраняя при этом сопоставимую производительность. Однако они не учитывают разрыв между генеративными и дискриминативными признаками, что приводит к неоптимальным результатам. В данной работе мы предлагаем DepthMaster, одношаговую модель диффузии, разработанную для адаптации генеративных признаков для задачи дискриминативной оценки глубины. Во-первых, для смягчения переобучения на текстурные детали, внесенные генеративными признаками, мы предлагаем модуль выравнивания признаков, который включает высококачественные семантические признаки для улучшения способности сети шумоподавления к представлению. Во-вторых, для решения недостатка деталей с мелкой структурой в одношаговой детерминированной структуре мы предлагаем модуль улучшения Фурье для адаптивного балансирования низкочастотной структуры и высокочастотных деталей. Мы используем двухэтапную стратегию обучения для полного использования потенциала двух модулей. На первом этапе мы сосредотачиваемся на изучении глобальной структуры сцены с помощью модуля выравнивания признаков, а на втором этапе используем модуль улучшения Фурье для улучшения визуального качества. Благодаря этим усилиям наша модель достигает передовой производительности в плане обобщения и сохранения деталей, превосходя другие методы на основе диффузии на различных наборах данных. Нашу страницу проекта можно найти по адресу https://indu1ge.github.io/DepthMaster_page.
English
Monocular depth estimation within the diffusion-denoising paradigm demonstrates impressive generalization ability but suffers from low inference speed. Recent methods adopt a single-step deterministic paradigm to improve inference efficiency while maintaining comparable performance. However, they overlook the gap between generative and discriminative features, leading to suboptimal results. In this work, we propose DepthMaster, a single-step diffusion model designed to adapt generative features for the discriminative depth estimation task. First, to mitigate overfitting to texture details introduced by generative features, we propose a Feature Alignment module, which incorporates high-quality semantic features to enhance the denoising network's representation capability. Second, to address the lack of fine-grained details in the single-step deterministic framework, we propose a Fourier Enhancement module to adaptively balance low-frequency structure and high-frequency details. We adopt a two-stage training strategy to fully leverage the potential of the two modules. In the first stage, we focus on learning the global scene structure with the Feature Alignment module, while in the second stage, we exploit the Fourier Enhancement module to improve the visual quality. Through these efforts, our model achieves state-of-the-art performance in terms of generalization and detail preservation, outperforming other diffusion-based methods across various datasets. Our project page can be found at https://indu1ge.github.io/DepthMaster_page.

Summary

AI-Generated Summary

PDF154January 7, 2025