ChatPaper.aiChatPaper

MVDD: Modelos de Difusión de Profundidad Multi-Vista

MVDD: Multi-View Depth Diffusion Models

December 8, 2023
Autores: Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang
cs.AI

Resumen

Los modelos de difusión para eliminación de ruido han demostrado resultados sobresalientes en la generación de imágenes 2D, pero sigue siendo un desafío replicar su éxito en la generación de formas 3D. En este artículo, proponemos aprovechar la profundidad multivista, que representa formas 3D complejas en un formato de datos 2D fácil de desruidificar. Emparejamos esta representación con un modelo de difusión, MVDD, capaz de generar nubes de puntos densas de alta calidad con más de 20K puntos y detalles finos. Para garantizar la consistencia 3D en la profundidad multivista, introducimos una atención a segmentos de línea epipolar que condiciona el paso de desruidificación de una vista en función de sus vistas vecinas. Además, se incorpora un módulo de fusión de profundidad en los pasos de difusión para asegurar aún más la alineación de los mapas de profundidad. Cuando se complementa con reconstrucción de superficies, MVDD también puede producir mallas 3D de alta calidad. Asimismo, MVDD destaca en otras tareas como la completación de profundidad y puede servir como un previo 3D, potenciando significativamente muchas tareas posteriores, como la inversión de GAN. Los resultados de vanguardia obtenidos en experimentos exhaustivos demuestran la excelente capacidad de MVDD en la generación de formas 3D, la completación de profundidad y su potencial como previo 3D para tareas posteriores.
English
Denoising diffusion models have demonstrated outstanding results in 2D image generation, yet it remains a challenge to replicate its success in 3D shape generation. In this paper, we propose leveraging multi-view depth, which represents complex 3D shapes in a 2D data format that is easy to denoise. We pair this representation with a diffusion model, MVDD, that is capable of generating high-quality dense point clouds with 20K+ points with fine-grained details. To enforce 3D consistency in multi-view depth, we introduce an epipolar line segment attention that conditions the denoising step for a view on its neighboring views. Additionally, a depth fusion module is incorporated into diffusion steps to further ensure the alignment of depth maps. When augmented with surface reconstruction, MVDD can also produce high-quality 3D meshes. Furthermore, MVDD stands out in other tasks such as depth completion, and can serve as a 3D prior, significantly boosting many downstream tasks, such as GAN inversion. State-of-the-art results from extensive experiments demonstrate MVDD's excellent ability in 3D shape generation, depth completion, and its potential as a 3D prior for downstream tasks.
PDF100December 15, 2024