MVDiffusion++ : Un modèle de diffusion multi-vues haute résolution pour la reconstruction d'objets 3D à partir de vues uniques ou éparses
MVDiffusion++: A Dense High-resolution Multi-view Diffusion Model for Single or Sparse-view 3D Object Reconstruction
February 20, 2024
Auteurs: Shitao Tang, Jiacheng Chen, Dilin Wang, Chengzhou Tang, Fuyang Zhang, Yuchen Fan, Vikas Chandra, Yasutaka Furukawa, Rakesh Ranjan
cs.AI
Résumé
Cet article présente une architecture neuronale, MVDiffusion++, pour la reconstruction d'objets 3D, qui synthétise des vues denses et haute résolution d'un objet à partir d'une ou de quelques images sans informations sur la pose de la caméra. MVDiffusion++ atteint une flexibilité et une scalabilité supérieures grâce à deux idées étonnamment simples : 1) Une « architecture sans pose » où l'auto-attention standard parmi les caractéristiques latentes 2D apprend la cohérence 3D à travers un nombre arbitraire de vues conditionnelles et générées sans utiliser explicitement les informations de pose de la caméra ; et 2) Une « stratégie d'abandon de vues » qui supprime un nombre substantiel de vues de sortie pendant l'entraînement, réduisant ainsi l'empreinte mémoire à l'entraînement et permettant la synthèse de vues denses et haute résolution au moment du test. Nous utilisons Objaverse pour l'entraînement et Google Scanned Objects pour l'évaluation avec des métriques standard de synthèse de nouvelles vues et de reconstruction 3D, où MVDiffusion++ surpasse significativement l'état de l'art actuel. Nous démontrons également un exemple d'application texte-à-3D en combinant MVDiffusion++ avec un modèle génératif texte-à-image.
English
This paper presents a neural architecture MVDiffusion++ for 3D object
reconstruction that synthesizes dense and high-resolution views of an object
given one or a few images without camera poses. MVDiffusion++ achieves superior
flexibility and scalability with two surprisingly simple ideas: 1) A
``pose-free architecture'' where standard self-attention among 2D latent
features learns 3D consistency across an arbitrary number of conditional and
generation views without explicitly using camera pose information; and 2) A
``view dropout strategy'' that discards a substantial number of output views
during training, which reduces the training-time memory footprint and enables
dense and high-resolution view synthesis at test time. We use the Objaverse for
training and the Google Scanned Objects for evaluation with standard novel view
synthesis and 3D reconstruction metrics, where MVDiffusion++ significantly
outperforms the current state of the arts. We also demonstrate a text-to-3D
application example by combining MVDiffusion++ with a text-to-image generative
model.Summary
AI-Generated Summary