ChatPaper.aiChatPaper

Sketch2NeRF: Generazione Testo-a-3D Guidata da Schizzi Multi-vista

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

January 25, 2024
Autori: Minglin Chen, Longguang Wang, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo
cs.AI

Abstract

Recentemente, gli approcci di generazione 3D da testo hanno raggiunto la creazione di contenuti 3D ad alta fedeltà utilizzando descrizioni testuali. Tuttavia, gli oggetti generati sono stocastici e mancano di un controllo fine. Gli schizzi forniscono un metodo economico per introdurre tale controllo fine. Ciononostante, è difficile ottenere un controllo flessibile da questi schizzi a causa della loro astrazione e ambiguità. In questo articolo, presentiamo un framework di generazione 3D da testo guidato da schizzi multi-vista (denominato Sketch2NeRF) per aggiungere il controllo degli schizzi alla generazione 3D. Nello specifico, il nostro metodo sfrutta modelli di diffusione 2D pre-addestrati (ad esempio, Stable Diffusion e ControlNet) per supervisionare l'ottimizzazione di una scena 3D rappresentata da un campo di radianza neurale (NeRF). Proponiamo un nuovo metodo di generazione e ricostruzione sincronizzata per ottimizzare efficacemente il NeRF. Negli esperimenti, abbiamo raccolto due tipi di dataset di schizzi multi-vista per valutare il metodo proposto. Dimostriamo che il nostro metodo può sintetizzare contenuti 3D coerenti con un controllo fine degli schizzi, mantenendo al contempo un'elevata fedeltà ai prompt testuali. I risultati estesi mostrano che il nostro metodo raggiunge prestazioni all'avanguardia in termini di somiglianza degli schizzi e allineamento al testo.
English
Recently, text-to-3D approaches have achieved high-fidelity 3D content generation using text description. However, the generated objects are stochastic and lack fine-grained control. Sketches provide a cheap approach to introduce such fine-grained control. Nevertheless, it is challenging to achieve flexible control from these sketches due to their abstraction and ambiguity. In this paper, we present a multi-view sketch-guided text-to-3D generation framework (namely, Sketch2NeRF) to add sketch control to 3D generation. Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable Diffusion and ControlNet) to supervise the optimization of a 3D scene represented by a neural radiance field (NeRF). We propose a novel synchronized generation and reconstruction method to effectively optimize the NeRF. In the experiments, we collected two kinds of multi-view sketch datasets to evaluate the proposed method. We demonstrate that our method can synthesize 3D consistent contents with fine-grained sketch control while being high-fidelity to text prompts. Extensive results show that our method achieves state-of-the-art performance in terms of sketch similarity and text alignment.
PDF121December 15, 2024