ChatPaper.aiChatPaper

Sketch2NeRF: Generación de Texto a 3D Guiada por Bocetos Multi-vista

Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation

January 25, 2024
Autores: Minglin Chen, Longguang Wang, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo
cs.AI

Resumen

Recientemente, los enfoques de texto a 3D han logrado la generación de contenido 3D de alta fidelidad utilizando descripciones textuales. Sin embargo, los objetos generados son estocásticos y carecen de control detallado. Los bocetos proporcionan un enfoque económico para introducir dicho control detallado. No obstante, es un desafío lograr un control flexible a partir de estos bocetos debido a su abstracción y ambigüedad. En este artículo, presentamos un marco de generación de texto a 3D guiado por bocetos multi-vista (denominado Sketch2NeRF) para añadir control de bocetos a la generación 3D. Específicamente, nuestro método aprovecha modelos de difusión 2D preentrenados (por ejemplo, Stable Diffusion y ControlNet) para supervisar la optimización de una escena 3D representada por un campo de radiancia neural (NeRF). Proponemos un novedoso método de generación y reconstrucción sincronizada para optimizar eficazmente el NeRF. En los experimentos, recopilamos dos tipos de conjuntos de datos de bocetos multi-vista para evaluar el método propuesto. Demostramos que nuestro método puede sintetizar contenidos 3D consistentes con control detallado de bocetos, manteniendo una alta fidelidad a las indicaciones textuales. Resultados extensos muestran que nuestro método alcanza un rendimiento de vanguardia en términos de similitud de bocetos y alineación con el texto.
English
Recently, text-to-3D approaches have achieved high-fidelity 3D content generation using text description. However, the generated objects are stochastic and lack fine-grained control. Sketches provide a cheap approach to introduce such fine-grained control. Nevertheless, it is challenging to achieve flexible control from these sketches due to their abstraction and ambiguity. In this paper, we present a multi-view sketch-guided text-to-3D generation framework (namely, Sketch2NeRF) to add sketch control to 3D generation. Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable Diffusion and ControlNet) to supervise the optimization of a 3D scene represented by a neural radiance field (NeRF). We propose a novel synchronized generation and reconstruction method to effectively optimize the NeRF. In the experiments, we collected two kinds of multi-view sketch datasets to evaluate the proposed method. We demonstrate that our method can synthesize 3D consistent contents with fine-grained sketch control while being high-fidelity to text prompts. Extensive results show that our method achieves state-of-the-art performance in terms of sketch similarity and text alignment.
PDF121December 15, 2024