Sketch2NeRF: Multi-View-Sketch-gesteuerte Text-zu-3D-Generierung
Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation
January 25, 2024
Autoren: Minglin Chen, Longguang Wang, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo
cs.AI
Zusammenfassung
Kürzlich haben Text-zu-3D-Ansätze die Erzeugung hochwertiger 3D-Inhalte mithilfe von Textbeschreibungen erreicht. Allerdings sind die generierten Objekte stochastisch und bieten keine feinkörnige Kontrolle. Skizzen bieten einen kostengünstigen Ansatz, um eine solche feinkörnige Kontrolle einzuführen. Dennoch ist es aufgrund ihrer Abstraktion und Mehrdeutigkeit herausfordernd, eine flexible Steuerung aus diesen Skizzen zu erreichen. In diesem Artikel stellen wir ein Multi-View-Skizzen-gesteuertes Text-zu-3D-Generierungsframework (namens Sketch2NeRF) vor, um die Skizzenkontrolle in die 3D-Generierung zu integrieren. Konkret nutzt unsere Methode vortrainierte 2D-Diffusionsmodelle (z. B. Stable Diffusion und ControlNet), um die Optimierung einer 3D-Szene, die durch ein Neural Radiance Field (NeRF) dargestellt wird, zu überwachen. Wir schlagen eine neuartige Methode der synchronisierten Generierung und Rekonstruktion vor, um das NeRF effektiv zu optimieren. In den Experimenten haben wir zwei Arten von Multi-View-Skizzen-Datensätzen gesammelt, um die vorgeschlagene Methode zu evaluieren. Wir zeigen, dass unsere Methode 3D-konsistente Inhalte mit feinkörniger Skizzenkontrolle synthetisieren kann, während sie gleichzeitig hochwertig auf Textanweisungen reagiert. Umfangreiche Ergebnisse belegen, dass unsere Methode in Bezug auf Skizzenähnlichkeit und Textausrichtung state-of-the-art-Leistungen erzielt.
English
Recently, text-to-3D approaches have achieved high-fidelity 3D content
generation using text description. However, the generated objects are
stochastic and lack fine-grained control. Sketches provide a cheap approach to
introduce such fine-grained control. Nevertheless, it is challenging to achieve
flexible control from these sketches due to their abstraction and ambiguity. In
this paper, we present a multi-view sketch-guided text-to-3D generation
framework (namely, Sketch2NeRF) to add sketch control to 3D generation.
Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable
Diffusion and ControlNet) to supervise the optimization of a 3D scene
represented by a neural radiance field (NeRF). We propose a novel synchronized
generation and reconstruction method to effectively optimize the NeRF. In the
experiments, we collected two kinds of multi-view sketch datasets to evaluate
the proposed method. We demonstrate that our method can synthesize 3D
consistent contents with fine-grained sketch control while being high-fidelity
to text prompts. Extensive results show that our method achieves
state-of-the-art performance in terms of sketch similarity and text alignment.