Sketch2NeRF: Multi-View-Sketch-gesteuerte Text-zu-3D-Generierung

papers.abstract

Kürzlich haben Text-zu-3D-Ansätze die Erzeugung hochwertiger 3D-Inhalte mithilfe von Textbeschreibungen erreicht. Allerdings sind die generierten Objekte stochastisch und bieten keine feinkörnige Kontrolle. Skizzen bieten einen kostengünstigen Ansatz, um eine solche feinkörnige Kontrolle einzuführen. Dennoch ist es aufgrund ihrer Abstraktion und Mehrdeutigkeit herausfordernd, eine flexible Steuerung aus diesen Skizzen zu erreichen. In diesem Artikel stellen wir ein Multi-View-Skizzen-gesteuertes Text-zu-3D-Generierungsframework (namens Sketch2NeRF) vor, um die Skizzenkontrolle in die 3D-Generierung zu integrieren. Konkret nutzt unsere Methode vortrainierte 2D-Diffusionsmodelle (z. B. Stable Diffusion und ControlNet), um die Optimierung einer 3D-Szene, die durch ein Neural Radiance Field (NeRF) dargestellt wird, zu überwachen. Wir schlagen eine neuartige Methode der synchronisierten Generierung und Rekonstruktion vor, um das NeRF effektiv zu optimieren. In den Experimenten haben wir zwei Arten von Multi-View-Skizzen-Datensätzen gesammelt, um die vorgeschlagene Methode zu evaluieren. Wir zeigen, dass unsere Methode 3D-konsistente Inhalte mit feinkörniger Skizzenkontrolle synthetisieren kann, während sie gleichzeitig hochwertig auf Textanweisungen reagiert. Umfangreiche Ergebnisse belegen, dass unsere Methode in Bezug auf Skizzenähnlichkeit und Textausrichtung state-of-the-art-Leistungen erzielt.

English

Recently, text-to-3D approaches have achieved high-fidelity 3D content generation using text description. However, the generated objects are stochastic and lack fine-grained control. Sketches provide a cheap approach to introduce such fine-grained control. Nevertheless, it is challenging to achieve flexible control from these sketches due to their abstraction and ambiguity. In this paper, we present a multi-view sketch-guided text-to-3D generation framework (namely, Sketch2NeRF) to add sketch control to 3D generation. Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable Diffusion and ControlNet) to supervise the optimization of a 3D scene represented by a neural radiance field (NeRF). We propose a novel synchronized generation and reconstruction method to effectively optimize the NeRF. In the experiments, we collected two kinds of multi-view sketch datasets to evaluate the proposed method. We demonstrate that our method can synthesize 3D consistent contents with fine-grained sketch control while being high-fidelity to text prompts. Extensive results show that our method achieves state-of-the-art performance in terms of sketch similarity and text alignment.

Sketch2NeRF: Multi-View-Sketch-gesteuerte Text-zu-3D-Generierung

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

papers.abstract

Support