Sketch2NeRF: Multi-view schets-gestuurde tekst-naar-3D-generatie

Samenvatting

Onlangs hebben tekst-naar-3D-benaderingen hoogwaardige 3D-inhoudgeneratie bereikt met behulp van tekstbeschrijvingen. De gegenereerde objecten zijn echter stochastisch en missen gedetailleerde controle. Schetsen bieden een goedkope manier om dergelijke gedetailleerde controle in te voeren. Desondanks is het uitdagend om flexibele controle te bereiken vanuit deze schetsen vanwege hun abstractie en ambiguïteit. In dit artikel presenteren we een multi-view schets-gestuurde tekst-naar-3D-generatieframework (genaamd Sketch2NeRF) om schetscontrole toe te voegen aan 3D-generatie. Specifiek maakt onze methode gebruik van vooraf getrainde 2D-diffusiemodellen (bijvoorbeeld Stable Diffusion en ControlNet) om de optimalisatie van een 3D-scène, gerepresenteerd door een neural radiance field (NeRF), te begeleiden. We stellen een nieuwe gesynchroniseerde generatie- en reconstructiemethode voor om de NeRF effectief te optimaliseren. In de experimenten hebben we twee soorten multi-view schetsdatasets verzameld om de voorgestelde methode te evalueren. We tonen aan dat onze methode 3D-consistente inhoud kan synthetiseren met gedetailleerde schetscontrole, terwijl het hoogwaardig blijft ten opzichte van tekstprompts. Uitgebreide resultaten laten zien dat onze methode state-of-the-art prestaties bereikt op het gebied van schetsgelijkenis en tekstuitlijning.

English

Recently, text-to-3D approaches have achieved high-fidelity 3D content generation using text description. However, the generated objects are stochastic and lack fine-grained control. Sketches provide a cheap approach to introduce such fine-grained control. Nevertheless, it is challenging to achieve flexible control from these sketches due to their abstraction and ambiguity. In this paper, we present a multi-view sketch-guided text-to-3D generation framework (namely, Sketch2NeRF) to add sketch control to 3D generation. Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable Diffusion and ControlNet) to supervise the optimization of a 3D scene represented by a neural radiance field (NeRF). We propose a novel synchronized generation and reconstruction method to effectively optimize the NeRF. In the experiments, we collected two kinds of multi-view sketch datasets to evaluate the proposed method. We demonstrate that our method can synthesize 3D consistent contents with fine-grained sketch control while being high-fidelity to text prompts. Extensive results show that our method achieves state-of-the-art performance in terms of sketch similarity and text alignment.

Sketch2NeRF: Multi-view schets-gestuurde tekst-naar-3D-generatie

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

Samenvatting

Support