ChatPaper.aiChatPaper

MVDD: Модели диффузии глубины с использованием множественных представлений

MVDD: Multi-View Depth Diffusion Models

December 8, 2023
Авторы: Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang
cs.AI

Аннотация

Модели денизинга на основе диффузии продемонстрировали выдающиеся результаты в генерации 2D-изображений, однако воспроизведение их успеха в генерации 3D-форм остается сложной задачей. В данной работе мы предлагаем использовать многовидовую глубину, которая представляет сложные 3D-формы в формате 2D-данных, удобном для денизинга. Мы сочетаем это представление с диффузионной моделью MVDD, способной генерировать высококачественные плотные облака точек с более чем 20 000 точек и детализированной структурой. Для обеспечения 3D-согласованности в многовидовой глубине мы вводим механизм внимания к отрезкам эпиполярных линий, который учитывает соседние виды на этапе денизинга. Кроме того, в шаги диффузии интегрирован модуль слияния глубины, что дополнительно гарантирует выравнивание карт глубины. При использовании совместно с реконструкцией поверхности MVDD также способна создавать высококачественные 3D-сетки. Более того, MVDD выделяется в других задачах, таких как достраивание глубины, и может служить 3D-приором, значительно улучшая многие последующие задачи, например инверсию GAN. Результаты обширных экспериментов, соответствующие современным стандартам, демонстрируют превосходные способности MVDD в генерации 3D-форм, достраивании глубины и ее потенциал в качестве 3D-приора для последующих задач.
English
Denoising diffusion models have demonstrated outstanding results in 2D image generation, yet it remains a challenge to replicate its success in 3D shape generation. In this paper, we propose leveraging multi-view depth, which represents complex 3D shapes in a 2D data format that is easy to denoise. We pair this representation with a diffusion model, MVDD, that is capable of generating high-quality dense point clouds with 20K+ points with fine-grained details. To enforce 3D consistency in multi-view depth, we introduce an epipolar line segment attention that conditions the denoising step for a view on its neighboring views. Additionally, a depth fusion module is incorporated into diffusion steps to further ensure the alignment of depth maps. When augmented with surface reconstruction, MVDD can also produce high-quality 3D meshes. Furthermore, MVDD stands out in other tasks such as depth completion, and can serve as a 3D prior, significantly boosting many downstream tasks, such as GAN inversion. State-of-the-art results from extensive experiments demonstrate MVDD's excellent ability in 3D shape generation, depth completion, and its potential as a 3D prior for downstream tasks.
PDF100December 15, 2024