MVDD: Модели диффузии глубины с использованием множественных представлений
MVDD: Multi-View Depth Diffusion Models
December 8, 2023
Авторы: Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang
cs.AI
Аннотация
Модели денизинга на основе диффузии продемонстрировали выдающиеся результаты в генерации 2D-изображений, однако воспроизведение их успеха в генерации 3D-форм остается сложной задачей. В данной работе мы предлагаем использовать многовидовую глубину, которая представляет сложные 3D-формы в формате 2D-данных, удобном для денизинга. Мы сочетаем это представление с диффузионной моделью MVDD, способной генерировать высококачественные плотные облака точек с более чем 20 000 точек и детализированной структурой. Для обеспечения 3D-согласованности в многовидовой глубине мы вводим механизм внимания к отрезкам эпиполярных линий, который учитывает соседние виды на этапе денизинга. Кроме того, в шаги диффузии интегрирован модуль слияния глубины, что дополнительно гарантирует выравнивание карт глубины. При использовании совместно с реконструкцией поверхности MVDD также способна создавать высококачественные 3D-сетки. Более того, MVDD выделяется в других задачах, таких как достраивание глубины, и может служить 3D-приором, значительно улучшая многие последующие задачи, например инверсию GAN. Результаты обширных экспериментов, соответствующие современным стандартам, демонстрируют превосходные способности MVDD в генерации 3D-форм, достраивании глубины и ее потенциал в качестве 3D-приора для последующих задач.
English
Denoising diffusion models have demonstrated outstanding results in 2D image
generation, yet it remains a challenge to replicate its success in 3D shape
generation. In this paper, we propose leveraging multi-view depth, which
represents complex 3D shapes in a 2D data format that is easy to denoise. We
pair this representation with a diffusion model, MVDD, that is capable of
generating high-quality dense point clouds with 20K+ points with fine-grained
details. To enforce 3D consistency in multi-view depth, we introduce an
epipolar line segment attention that conditions the denoising step for a view
on its neighboring views. Additionally, a depth fusion module is incorporated
into diffusion steps to further ensure the alignment of depth maps. When
augmented with surface reconstruction, MVDD can also produce high-quality 3D
meshes. Furthermore, MVDD stands out in other tasks such as depth completion,
and can serve as a 3D prior, significantly boosting many downstream tasks, such
as GAN inversion. State-of-the-art results from extensive experiments
demonstrate MVDD's excellent ability in 3D shape generation, depth completion,
and its potential as a 3D prior for downstream tasks.