Sketch2NeRF: Generazione Testo-a-3D Guidata da Schizzi Multi-vista
Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation
January 25, 2024
Autori: Minglin Chen, Longguang Wang, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo
cs.AI
Abstract
Recentemente, gli approcci di generazione 3D da testo hanno raggiunto la creazione di contenuti 3D ad alta fedeltà utilizzando descrizioni testuali. Tuttavia, gli oggetti generati sono stocastici e mancano di un controllo fine. Gli schizzi forniscono un metodo economico per introdurre tale controllo fine. Ciononostante, è difficile ottenere un controllo flessibile da questi schizzi a causa della loro astrazione e ambiguità. In questo articolo, presentiamo un framework di generazione 3D da testo guidato da schizzi multi-vista (denominato Sketch2NeRF) per aggiungere il controllo degli schizzi alla generazione 3D. Nello specifico, il nostro metodo sfrutta modelli di diffusione 2D pre-addestrati (ad esempio, Stable Diffusion e ControlNet) per supervisionare l'ottimizzazione di una scena 3D rappresentata da un campo di radianza neurale (NeRF). Proponiamo un nuovo metodo di generazione e ricostruzione sincronizzata per ottimizzare efficacemente il NeRF. Negli esperimenti, abbiamo raccolto due tipi di dataset di schizzi multi-vista per valutare il metodo proposto. Dimostriamo che il nostro metodo può sintetizzare contenuti 3D coerenti con un controllo fine degli schizzi, mantenendo al contempo un'elevata fedeltà ai prompt testuali. I risultati estesi mostrano che il nostro metodo raggiunge prestazioni all'avanguardia in termini di somiglianza degli schizzi e allineamento al testo.
English
Recently, text-to-3D approaches have achieved high-fidelity 3D content
generation using text description. However, the generated objects are
stochastic and lack fine-grained control. Sketches provide a cheap approach to
introduce such fine-grained control. Nevertheless, it is challenging to achieve
flexible control from these sketches due to their abstraction and ambiguity. In
this paper, we present a multi-view sketch-guided text-to-3D generation
framework (namely, Sketch2NeRF) to add sketch control to 3D generation.
Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable
Diffusion and ControlNet) to supervise the optimization of a 3D scene
represented by a neural radiance field (NeRF). We propose a novel synchronized
generation and reconstruction method to effectively optimize the NeRF. In the
experiments, we collected two kinds of multi-view sketch datasets to evaluate
the proposed method. We demonstrate that our method can synthesize 3D
consistent contents with fine-grained sketch control while being high-fidelity
to text prompts. Extensive results show that our method achieves
state-of-the-art performance in terms of sketch similarity and text alignment.