Adaptateur de Diffusion 3D Générique Utilisant l'Édition Contrôlée Multi-Vues
Generic 3D Diffusion Adapter Using Controlled Multi-View Editing
March 18, 2024
Auteurs: Hansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas
cs.AI
Résumé
La synthèse d'objets 3D en domaine ouvert a pris du retard par rapport à la synthèse d'images en raison de données limitées et d'une complexité computationnelle plus élevée. Pour combler cet écart, des travaux récents ont exploré la diffusion multi-vues, mais ils peinent souvent à atteindre une cohérence 3D, une qualité visuelle ou une efficacité satisfaisantes. Cet article propose MVEdit, qui fonctionne comme un équivalent 3D de SDEdit, utilisant un échantillonnage ancestral pour débruiter conjointement des images multi-vues et produire des maillages texturés de haute qualité. Basé sur des modèles de diffusion 2D existants, MVEdit atteint la cohérence 3D grâce à un adaptateur 3D sans apprentissage, qui transforme les vues 2D du dernier pas de temps en une représentation 3D cohérente, puis conditionne les vues 2D du pas de temps suivant à l'aide de vues rendues, sans compromettre la qualité visuelle. Avec un temps d'inférence de seulement 2 à 5 minutes, ce framework offre un meilleur compromis entre qualité et vitesse que la distillation de scores. MVEdit est très polyvalent et extensible, avec une large gamme d'applications incluant la génération texte/image-vers-3D, l'édition 3D-vers-3D et la synthèse de textures de haute qualité. En particulier, les évaluations démontrent des performances de pointe dans les tâches de génération image-vers-3D et de génération de textures guidée par texte. De plus, nous introduisons une méthode pour affiner des modèles de diffusion latente 2D sur de petits ensembles de données 3D avec des ressources limitées, permettant une initialisation rapide en basse résolution pour la génération texte-vers-3D.
English
Open-domain 3D object synthesis has been lagging behind image synthesis due
to limited data and higher computational complexity. To bridge this gap, recent
works have investigated multi-view diffusion but often fall short in either 3D
consistency, visual quality, or efficiency. This paper proposes MVEdit, which
functions as a 3D counterpart of SDEdit, employing ancestral sampling to
jointly denoise multi-view images and output high-quality textured meshes.
Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency
through a training-free 3D Adapter, which lifts the 2D views of the last
timestep into a coherent 3D representation, then conditions the 2D views of the
next timestep using rendered views, without uncompromising visual quality. With
an inference time of only 2-5 minutes, this framework achieves better trade-off
between quality and speed than score distillation. MVEdit is highly versatile
and extendable, with a wide range of applications including text/image-to-3D
generation, 3D-to-3D editing, and high-quality texture synthesis. In
particular, evaluations demonstrate state-of-the-art performance in both
image-to-3D and text-guided texture generation tasks. Additionally, we
introduce a method for fine-tuning 2D latent diffusion models on small 3D
datasets with limited resources, enabling fast low-resolution text-to-3D
initialization.Summary
AI-Generated Summary