Sketch2NeRF : Génération de texte-à-3D guidée par des croquis multi-vues

papers.abstract

Récemment, les approches de génération de contenu 3D à partir de texte ont permis la création de modèles 3D de haute fidélité en utilisant des descriptions textuelles. Cependant, les objets générés sont stochastiques et manquent de contrôle fin. Les esquisses offrent une méthode peu coûteuse pour introduire un tel contrôle fin. Néanmoins, il est difficile d'obtenir un contrôle flexible à partir de ces esquisses en raison de leur abstraction et de leur ambiguïté. Dans cet article, nous présentons un cadre de génération de contenu 3D guidé par des esquisses multi-vues (nommé Sketch2NeRF) pour ajouter un contrôle par esquisse à la génération 3D. Plus précisément, notre méthode exploite des modèles de diffusion 2D pré-entraînés (par exemple, Stable Diffusion et ControlNet) pour superviser l'optimisation d'une scène 3D représentée par un champ de radiance neuronale (NeRF). Nous proposons une nouvelle méthode de génération et de reconstruction synchronisées pour optimiser efficacement le NeRF. Dans les expériences, nous avons collecté deux types de jeux de données d'esquisses multi-vues pour évaluer la méthode proposée. Nous démontrons que notre méthode peut synthétiser des contenus 3D cohérents avec un contrôle fin par esquisse tout en étant fidèle aux prompts textuels. Les résultats approfondis montrent que notre méthode atteint des performances de pointe en termes de similarité d'esquisse et d'alignement textuel.

English

Recently, text-to-3D approaches have achieved high-fidelity 3D content generation using text description. However, the generated objects are stochastic and lack fine-grained control. Sketches provide a cheap approach to introduce such fine-grained control. Nevertheless, it is challenging to achieve flexible control from these sketches due to their abstraction and ambiguity. In this paper, we present a multi-view sketch-guided text-to-3D generation framework (namely, Sketch2NeRF) to add sketch control to 3D generation. Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable Diffusion and ControlNet) to supervise the optimization of a 3D scene represented by a neural radiance field (NeRF). We propose a novel synchronized generation and reconstruction method to effectively optimize the NeRF. In the experiments, we collected two kinds of multi-view sketch datasets to evaluate the proposed method. We demonstrate that our method can synthesize 3D consistent contents with fine-grained sketch control while being high-fidelity to text prompts. Extensive results show that our method achieves state-of-the-art performance in terms of sketch similarity and text alignment.

Sketch2NeRF : Génération de texte-à-3D guidée par des croquis multi-vues

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

papers.abstract

Support