Sketch2NeRF: Generazione Testo-a-3D Guidata da Schizzi Multi-vista

Abstract

Recentemente, gli approcci di generazione 3D da testo hanno raggiunto la creazione di contenuti 3D ad alta fedeltà utilizzando descrizioni testuali. Tuttavia, gli oggetti generati sono stocastici e mancano di un controllo fine. Gli schizzi forniscono un metodo economico per introdurre tale controllo fine. Ciononostante, è difficile ottenere un controllo flessibile da questi schizzi a causa della loro astrazione e ambiguità. In questo articolo, presentiamo un framework di generazione 3D da testo guidato da schizzi multi-vista (denominato Sketch2NeRF) per aggiungere il controllo degli schizzi alla generazione 3D. Nello specifico, il nostro metodo sfrutta modelli di diffusione 2D pre-addestrati (ad esempio, Stable Diffusion e ControlNet) per supervisionare l'ottimizzazione di una scena 3D rappresentata da un campo di radianza neurale (NeRF). Proponiamo un nuovo metodo di generazione e ricostruzione sincronizzata per ottimizzare efficacemente il NeRF. Negli esperimenti, abbiamo raccolto due tipi di dataset di schizzi multi-vista per valutare il metodo proposto. Dimostriamo che il nostro metodo può sintetizzare contenuti 3D coerenti con un controllo fine degli schizzi, mantenendo al contempo un'elevata fedeltà ai prompt testuali. I risultati estesi mostrano che il nostro metodo raggiunge prestazioni all'avanguardia in termini di somiglianza degli schizzi e allineamento al testo.

English

Recently, text-to-3D approaches have achieved high-fidelity 3D content generation using text description. However, the generated objects are stochastic and lack fine-grained control. Sketches provide a cheap approach to introduce such fine-grained control. Nevertheless, it is challenging to achieve flexible control from these sketches due to their abstraction and ambiguity. In this paper, we present a multi-view sketch-guided text-to-3D generation framework (namely, Sketch2NeRF) to add sketch control to 3D generation. Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable Diffusion and ControlNet) to supervise the optimization of a 3D scene represented by a neural radiance field (NeRF). We propose a novel synchronized generation and reconstruction method to effectively optimize the NeRF. In the experiments, we collected two kinds of multi-view sketch datasets to evaluate the proposed method. We demonstrate that our method can synthesize 3D consistent contents with fine-grained sketch control while being high-fidelity to text prompts. Extensive results show that our method achieves state-of-the-art performance in terms of sketch similarity and text alignment.

Sketch2NeRF: Generazione Testo-a-3D Guidata da Schizzi Multi-vista

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

Abstract

Support