Sketch2NeRF: Multi-view schets-gestuurde tekst-naar-3D-generatie
Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation
January 25, 2024
Auteurs: Minglin Chen, Longguang Wang, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo
cs.AI
Samenvatting
Onlangs hebben tekst-naar-3D-benaderingen hoogwaardige 3D-inhoudgeneratie bereikt met behulp van tekstbeschrijvingen. De gegenereerde objecten zijn echter stochastisch en missen gedetailleerde controle. Schetsen bieden een goedkope manier om dergelijke gedetailleerde controle in te voeren. Desondanks is het uitdagend om flexibele controle te bereiken vanuit deze schetsen vanwege hun abstractie en ambiguïteit. In dit artikel presenteren we een multi-view schets-gestuurde tekst-naar-3D-generatieframework (genaamd Sketch2NeRF) om schetscontrole toe te voegen aan 3D-generatie. Specifiek maakt onze methode gebruik van vooraf getrainde 2D-diffusiemodellen (bijvoorbeeld Stable Diffusion en ControlNet) om de optimalisatie van een 3D-scène, gerepresenteerd door een neural radiance field (NeRF), te begeleiden. We stellen een nieuwe gesynchroniseerde generatie- en reconstructiemethode voor om de NeRF effectief te optimaliseren. In de experimenten hebben we twee soorten multi-view schetsdatasets verzameld om de voorgestelde methode te evalueren. We tonen aan dat onze methode 3D-consistente inhoud kan synthetiseren met gedetailleerde schetscontrole, terwijl het hoogwaardig blijft ten opzichte van tekstprompts. Uitgebreide resultaten laten zien dat onze methode state-of-the-art prestaties bereikt op het gebied van schetsgelijkenis en tekstuitlijning.
English
Recently, text-to-3D approaches have achieved high-fidelity 3D content
generation using text description. However, the generated objects are
stochastic and lack fine-grained control. Sketches provide a cheap approach to
introduce such fine-grained control. Nevertheless, it is challenging to achieve
flexible control from these sketches due to their abstraction and ambiguity. In
this paper, we present a multi-view sketch-guided text-to-3D generation
framework (namely, Sketch2NeRF) to add sketch control to 3D generation.
Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable
Diffusion and ControlNet) to supervise the optimization of a 3D scene
represented by a neural radiance field (NeRF). We propose a novel synchronized
generation and reconstruction method to effectively optimize the NeRF. In the
experiments, we collected two kinds of multi-view sketch datasets to evaluate
the proposed method. We demonstrate that our method can synthesize 3D
consistent contents with fine-grained sketch control while being high-fidelity
to text prompts. Extensive results show that our method achieves
state-of-the-art performance in terms of sketch similarity and text alignment.