Génération contrôlée de texte vers 3D via un placage de Gauss aligné sur la surface
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting
March 15, 2024
Auteurs: Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu
cs.AI
Résumé
Alors que les tâches de génération de texte-à-3D et d'image-à-3D ont reçu une attention considérable, un domaine important mais peu exploré entre elles est la génération contrôlée de texte-à-3D, sur laquelle nous nous concentrons principalement dans ce travail. Pour aborder cette tâche, 1) nous introduisons Multi-view ControlNet (MVControl), une nouvelle architecture de réseau neuronal conçue pour améliorer les modèles de diffusion multi-vues pré-entraînés existants en intégrant des conditions d'entrée supplémentaires, telles que les cartes de contours, de profondeur, de normales et de gribouillis. Notre innovation réside dans l'introduction d'un module de conditionnement qui contrôle le modèle de diffusion de base en utilisant à la fois des embeddings locaux et globaux, calculés à partir des images de condition d'entrée et des poses de caméra. Une fois entraîné, MVControl est capable de fournir un guidage de diffusion 3D pour la génération de 3D basée sur l'optimisation. Et, 2) nous proposons un pipeline de génération 3D multi-étapes efficace qui tire parti des avantages des récents modèles de reconstruction à grande échelle et de l'algorithme de distillation de score. En nous appuyant sur notre architecture MVControl, nous employons une méthode unique de guidage hybride par diffusion pour diriger le processus d'optimisation. Dans un souci d'efficacité, nous adoptons les Gaussiennes 3D comme représentation au lieu des représentations implicites couramment utilisées. Nous sommes également les premiers à utiliser SuGaR, une représentation hybride qui lie les Gaussiennes aux faces des triangles du maillage. Cette approche atténue le problème de la mauvaise géométrie dans les Gaussiennes 3D et permet la sculpture directe de la géométrie fine sur le maillage. Des expériences approfondies démontrent que notre méthode atteint une généralisation robuste et permet la génération contrôlée de contenu 3D de haute qualité.
English
While text-to-3D and image-to-3D generation tasks have received considerable
attention, one important but under-explored field between them is controllable
text-to-3D generation, which we mainly focus on in this work. To address this
task, 1) we introduce Multi-view ControlNet (MVControl), a novel neural network
architecture designed to enhance existing pre-trained multi-view diffusion
models by integrating additional input conditions, such as edge, depth, normal,
and scribble maps. Our innovation lies in the introduction of a conditioning
module that controls the base diffusion model using both local and global
embeddings, which are computed from the input condition images and camera
poses. Once trained, MVControl is able to offer 3D diffusion guidance for
optimization-based 3D generation. And, 2) we propose an efficient multi-stage
3D generation pipeline that leverages the benefits of recent large
reconstruction models and score distillation algorithm. Building upon our
MVControl architecture, we employ a unique hybrid diffusion guidance method to
direct the optimization process. In pursuit of efficiency, we adopt 3D
Gaussians as our representation instead of the commonly used implicit
representations. We also pioneer the use of SuGaR, a hybrid representation that
binds Gaussians to mesh triangle faces. This approach alleviates the issue of
poor geometry in 3D Gaussians and enables the direct sculpting of fine-grained
geometry on the mesh. Extensive experiments demonstrate that our method
achieves robust generalization and enables the controllable generation of
high-quality 3D content.Summary
AI-Generated Summary