MVD^2 : Reconstruction 3D multivue efficace pour la diffusion multivue
MVD^2: Efficient Multiview 3D Reconstruction for Multiview Diffusion
February 22, 2024
Auteurs: Xin-Yang Zheng, Hao Pan, Yu-Xiao Guo, Xin Tong, Yang Liu
cs.AI
Résumé
En tant que technique prometteuse de génération 3D, la diffusion multivue (MVD) a suscité beaucoup d'attention en raison de ses avantages en termes de généralisation, de qualité et d'efficacité. En affinant des modèles de diffusion d'images pré-entraînés avec des données 3D, les méthodes MVD génèrent d'abord plusieurs vues d'un objet 3D à partir d'une image ou d'un texte, puis reconstruisent des formes 3D grâce à une reconstruction multivue. Cependant, les vues éparses et les détails incohérents dans les images générées rendent la reconstruction 3D difficile. Nous présentons MVD^2, une méthode de reconstruction 3D efficace pour les images de diffusion multivue (MVD). MVD^2 agrège les caractéristiques des images en un volume de caractéristiques 3D par projection et convolution, puis décode ces caractéristiques volumétriques en un maillage 3D. Nous entraînons MVD^2 avec des collections de formes 3D et des images MVD générées à partir de vues rendues de formes 3D. Pour résoudre la divergence entre les images multivues générées et les vues de référence des formes 3D, nous concevons un schéma d'entraînement dépendant de la vue, simple mais efficace. MVD^2 améliore la qualité de la génération 3D de MVD et est rapide et robuste face à diverses méthodes MVD. Après entraînement, il peut décoder efficacement des maillages 3D à partir d'images multivues en moins d'une seconde. Nous entraînons MVD^2 avec Zero-123++ et le jeu de données 3D ObjectVerse-LVIS, et démontrons ses performances supérieures dans la génération de modèles 3D à partir d'images multivues produites par différentes méthodes MVD, en utilisant à la fois des images synthétiques et réelles comme prompts.
English
As a promising 3D generation technique, multiview diffusion (MVD) has
received a lot of attention due to its advantages in terms of generalizability,
quality, and efficiency. By finetuning pretrained large image diffusion models
with 3D data, the MVD methods first generate multiple views of a 3D object
based on an image or text prompt and then reconstruct 3D shapes with multiview
3D reconstruction. However, the sparse views and inconsistent details in the
generated images make 3D reconstruction challenging. We present MVD^2, an
efficient 3D reconstruction method for multiview diffusion (MVD) images.
MVD^2 aggregates image features into a 3D feature volume by projection and
convolution and then decodes volumetric features into a 3D mesh. We train
MVD^2 with 3D shape collections and MVD images prompted by rendered views of
3D shapes. To address the discrepancy between the generated multiview images
and ground-truth views of the 3D shapes, we design a simple-yet-efficient
view-dependent training scheme. MVD^2 improves the 3D generation quality of
MVD and is fast and robust to various MVD methods. After training, it can
efficiently decode 3D meshes from multiview images within one second. We train
MVD^2 with Zero-123++ and ObjectVerse-LVIS 3D dataset and demonstrate its
superior performance in generating 3D models from multiview images generated by
different MVD methods, using both synthetic and real images as prompts.