ViewDiff : Génération d'images 3D cohérentes avec des modèles texte-à-image
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models
March 4, 2024
Auteurs: Lukas Höllein, Aljaž Božič, Norman Müller, David Novotny, Hung-Yu Tseng, Christian Richardt, Michael Zollhöfer, Matthias Nießner
cs.AI
Résumé
La génération d'actifs 3D suscite un intérêt considérable, inspirée par les récents succès de la création de contenu 2D guidée par texte. Les méthodes existantes de texte-à-3D utilisent des modèles de diffusion pré-entraînés de texte-à-image dans un problème d'optimisation ou les affinent sur des données synthétiques, ce qui aboutit souvent à des objets 3D non photoréalistes sans arrière-plan. Dans cet article, nous présentons une méthode qui exploite des modèles pré-entraînés de texte-à-image comme a priori, et apprend à générer des images multi-vues en un seul processus de débruitage à partir de données du monde réel. Concrètement, nous proposons d'intégrer des couches de rendu volumétrique 3D et d'attention inter-images dans chaque bloc du réseau U-Net existant du modèle texte-à-image. De plus, nous concevons une génération autorégressive qui produit des images plus cohérentes en 3D à n'importe quel point de vue. Nous entraînons notre modèle sur des ensembles de données d'objets du monde réel et démontrons sa capacité à générer des instances avec une variété de formes et de textures de haute qualité dans des environnements authentiques. Par rapport aux méthodes existantes, les résultats générés par notre méthode sont cohérents et présentent une qualité visuelle supérieure (-30% FID, -37% KID).
English
3D asset generation is getting massive amounts of attention, inspired by the
recent success of text-guided 2D content creation. Existing text-to-3D methods
use pretrained text-to-image diffusion models in an optimization problem or
fine-tune them on synthetic data, which often results in non-photorealistic 3D
objects without backgrounds. In this paper, we present a method that leverages
pretrained text-to-image models as a prior, and learn to generate multi-view
images in a single denoising process from real-world data. Concretely, we
propose to integrate 3D volume-rendering and cross-frame-attention layers into
each block of the existing U-Net network of the text-to-image model. Moreover,
we design an autoregressive generation that renders more 3D-consistent images
at any viewpoint. We train our model on real-world datasets of objects and
showcase its capabilities to generate instances with a variety of high-quality
shapes and textures in authentic surroundings. Compared to the existing
methods, the results generated by our method are consistent, and have favorable
visual quality (-30% FID, -37% KID).