Sketch2NeRF : Génération de texte-à-3D guidée par des croquis multi-vues
Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation
January 25, 2024
Auteurs: Minglin Chen, Longguang Wang, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo
cs.AI
Résumé
Récemment, les approches de génération de contenu 3D à partir de texte ont permis la création de modèles 3D de haute fidélité en utilisant des descriptions textuelles. Cependant, les objets générés sont stochastiques et manquent de contrôle fin. Les esquisses offrent une méthode peu coûteuse pour introduire un tel contrôle fin. Néanmoins, il est difficile d'obtenir un contrôle flexible à partir de ces esquisses en raison de leur abstraction et de leur ambiguïté. Dans cet article, nous présentons un cadre de génération de contenu 3D guidé par des esquisses multi-vues (nommé Sketch2NeRF) pour ajouter un contrôle par esquisse à la génération 3D. Plus précisément, notre méthode exploite des modèles de diffusion 2D pré-entraînés (par exemple, Stable Diffusion et ControlNet) pour superviser l'optimisation d'une scène 3D représentée par un champ de radiance neuronale (NeRF). Nous proposons une nouvelle méthode de génération et de reconstruction synchronisées pour optimiser efficacement le NeRF. Dans les expériences, nous avons collecté deux types de jeux de données d'esquisses multi-vues pour évaluer la méthode proposée. Nous démontrons que notre méthode peut synthétiser des contenus 3D cohérents avec un contrôle fin par esquisse tout en étant fidèle aux prompts textuels. Les résultats approfondis montrent que notre méthode atteint des performances de pointe en termes de similarité d'esquisse et d'alignement textuel.
English
Recently, text-to-3D approaches have achieved high-fidelity 3D content
generation using text description. However, the generated objects are
stochastic and lack fine-grained control. Sketches provide a cheap approach to
introduce such fine-grained control. Nevertheless, it is challenging to achieve
flexible control from these sketches due to their abstraction and ambiguity. In
this paper, we present a multi-view sketch-guided text-to-3D generation
framework (namely, Sketch2NeRF) to add sketch control to 3D generation.
Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable
Diffusion and ControlNet) to supervise the optimization of a 3D scene
represented by a neural radiance field (NeRF). We propose a novel synchronized
generation and reconstruction method to effectively optimize the NeRF. In the
experiments, we collected two kinds of multi-view sketch datasets to evaluate
the proposed method. We demonstrate that our method can synthesize 3D
consistent contents with fine-grained sketch control while being high-fidelity
to text prompts. Extensive results show that our method achieves
state-of-the-art performance in terms of sketch similarity and text alignment.