ChatPaper.aiChatPaper

MVDD: Multi-View Diepte Diffusiemodellen

MVDD: Multi-View Depth Diffusion Models

December 8, 2023
Auteurs: Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang
cs.AI

Samenvatting

Denoising-diffusiemodellen hebben uitstekende resultaten laten zien bij het genereren van 2D-beelden, maar het blijft een uitdaging om dit succes te repliceren bij het genereren van 3D-vormen. In dit artikel stellen we voor om gebruik te maken van multi-view diepte, wat complexe 3D-vormen weergeeft in een 2D-gegevensformaat dat gemakkelijk te denoizen is. We combineren deze representatie met een diffusiemodel, MVDD, dat in staat is hoogwaardige dichte puntenwolken te genereren met 20K+ punten en fijnmazige details. Om 3D-consistentie in multi-view diepte te waarborgen, introduceren we een epipolaire lijnsegment-attentie die de denoising-stap voor een view conditioneert op basis van de aangrenzende views. Daarnaast is een dieptefusiemodule geïntegreerd in de diffusiestappen om de uitlijning van dieptekaarten verder te waarborgen. Wanneer aangevuld met oppervlakreconstructie, kan MVDD ook hoogwaardige 3D-meshes produceren. Bovendien onderscheidt MVDD zich in andere taken, zoals dieptecompletering, en kan het dienen als een 3D-prior, wat veel downstream taken, zoals GAN-inversie, aanzienlijk verbetert. State-of-the-art resultaten uit uitgebreide experimenten tonen de uitstekende vaardigheid van MVDD in 3D-vormgeneratie, dieptecompletering en zijn potentieel als een 3D-prior voor downstream taken.
English
Denoising diffusion models have demonstrated outstanding results in 2D image generation, yet it remains a challenge to replicate its success in 3D shape generation. In this paper, we propose leveraging multi-view depth, which represents complex 3D shapes in a 2D data format that is easy to denoise. We pair this representation with a diffusion model, MVDD, that is capable of generating high-quality dense point clouds with 20K+ points with fine-grained details. To enforce 3D consistency in multi-view depth, we introduce an epipolar line segment attention that conditions the denoising step for a view on its neighboring views. Additionally, a depth fusion module is incorporated into diffusion steps to further ensure the alignment of depth maps. When augmented with surface reconstruction, MVDD can also produce high-quality 3D meshes. Furthermore, MVDD stands out in other tasks such as depth completion, and can serve as a 3D prior, significantly boosting many downstream tasks, such as GAN inversion. State-of-the-art results from extensive experiments demonstrate MVDD's excellent ability in 3D shape generation, depth completion, and its potential as a 3D prior for downstream tasks.
PDF100December 15, 2024