MVDD : Modèles de diffusion de profondeur multi-vues
MVDD: Multi-View Depth Diffusion Models
December 8, 2023
Auteurs: Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang
cs.AI
Résumé
Les modèles de diffusion débruiteurs ont démontré des résultats exceptionnels dans la génération d'images 2D, mais reproduire ce succès dans la génération de formes 3D reste un défi. Dans cet article, nous proposons d'exploiter la profondeur multi-vues, qui représente des formes 3D complexes dans un format de données 2D facile à débruiter. Nous associons cette représentation à un modèle de diffusion, MVDD, capable de générer des nuages de points denses de haute qualité avec plus de 20 000 points et des détails fins. Pour garantir la cohérence 3D dans la profondeur multi-vues, nous introduisons une attention par segment de ligne épipolaire qui conditionne l'étape de débruitage d'une vue sur ses vues voisines. De plus, un module de fusion de profondeur est intégré aux étapes de diffusion pour assurer davantage l'alignement des cartes de profondeur. Lorsqu'il est augmenté par une reconstruction de surface, MVDD peut également produire des maillages 3D de haute qualité. Par ailleurs, MVDD se distingue dans d'autres tâches telles que la complétion de profondeur et peut servir de prior 3D, améliorant significativement de nombreuses tâches en aval, comme l'inversion de GAN. Les résultats de pointe obtenus lors d'expériences approfondies démontrent l'excellente capacité de MVDD dans la génération de formes 3D, la complétion de profondeur, et son potentiel en tant que prior 3D pour les tâches en aval.
English
Denoising diffusion models have demonstrated outstanding results in 2D image
generation, yet it remains a challenge to replicate its success in 3D shape
generation. In this paper, we propose leveraging multi-view depth, which
represents complex 3D shapes in a 2D data format that is easy to denoise. We
pair this representation with a diffusion model, MVDD, that is capable of
generating high-quality dense point clouds with 20K+ points with fine-grained
details. To enforce 3D consistency in multi-view depth, we introduce an
epipolar line segment attention that conditions the denoising step for a view
on its neighboring views. Additionally, a depth fusion module is incorporated
into diffusion steps to further ensure the alignment of depth maps. When
augmented with surface reconstruction, MVDD can also produce high-quality 3D
meshes. Furthermore, MVDD stands out in other tasks such as depth completion,
and can serve as a 3D prior, significantly boosting many downstream tasks, such
as GAN inversion. State-of-the-art results from extensive experiments
demonstrate MVDD's excellent ability in 3D shape generation, depth completion,
and its potential as a 3D prior for downstream tasks.