ChatPaper.aiChatPaper

MVDD: Multi-View Tiefendiffusionsmodelle

MVDD: Multi-View Depth Diffusion Models

December 8, 2023
Autoren: Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang
cs.AI

Zusammenfassung

Denoising-Diffusionsmodelle haben herausragende Ergebnisse in der 2D-Bildgenerierung gezeigt, doch bleibt es eine Herausforderung, diesen Erfolg in der 3D-Formgenerierung zu wiederholen. In diesem Artikel schlagen wir vor, Multi-View-Tiefeninformationen zu nutzen, die komplexe 3D-Formen in einem 2D-Datenformat darstellen, das einfach zu denoisen ist. Wir kombinieren diese Darstellung mit einem Diffusionsmodell, MVDD, das in der Lage ist, hochwertige dichte Punktwolken mit 20.000+ Punkten und fein detaillierten Strukturen zu generieren. Um die 3D-Konsistenz in Multi-View-Tiefeninformationen zu gewährleisten, führen wir eine epipolare Liniensegment-Attention ein, die den Denoising-Schritt für eine Ansicht anhand ihrer benachbarten Ansichten konditioniert. Zusätzlich wird ein Tiefenfusionsmodul in die Diffusionsschritte integriert, um die Ausrichtung der Tiefenkarten weiter zu sichern. Wenn MVDD mit Oberflächenrekonstruktion erweitert wird, kann es auch hochwertige 3D-Meshes erzeugen. Darüber hinaus zeichnet sich MVDD in anderen Aufgaben wie der Tiefenvervollständigung aus und kann als 3D-Prior dienen, was viele nachgelagerte Aufgaben, wie z.B. GAN-Inversion, erheblich verbessert. State-of-the-Art-Ergebnisse aus umfangreichen Experimenten demonstrieren die hervorragende Fähigkeit von MVDD in der 3D-Formgenerierung, Tiefenvervollständigung und sein Potenzial als 3D-Prior für nachgelagerte Aufgaben.
English
Denoising diffusion models have demonstrated outstanding results in 2D image generation, yet it remains a challenge to replicate its success in 3D shape generation. In this paper, we propose leveraging multi-view depth, which represents complex 3D shapes in a 2D data format that is easy to denoise. We pair this representation with a diffusion model, MVDD, that is capable of generating high-quality dense point clouds with 20K+ points with fine-grained details. To enforce 3D consistency in multi-view depth, we introduce an epipolar line segment attention that conditions the denoising step for a view on its neighboring views. Additionally, a depth fusion module is incorporated into diffusion steps to further ensure the alignment of depth maps. When augmented with surface reconstruction, MVDD can also produce high-quality 3D meshes. Furthermore, MVDD stands out in other tasks such as depth completion, and can serve as a 3D prior, significantly boosting many downstream tasks, such as GAN inversion. State-of-the-art results from extensive experiments demonstrate MVDD's excellent ability in 3D shape generation, depth completion, and its potential as a 3D prior for downstream tasks.
PDF100December 15, 2024