Sketch2NeRF: Geração Texto-para-3D Guiada por Esboços Multi-visão
Sketch2NeRF: Multi-view Sketch-guided Text-to-3D Generation
January 25, 2024
Autores: Minglin Chen, Longguang Wang, Weihao Yuan, Yukun Wang, Zhe Sheng, Yisheng He, Zilong Dong, Liefeng Bo, Yulan Guo
cs.AI
Resumo
Recentemente, abordagens de texto-para-3D têm alcançado a geração de conteúdo 3D de alta fidelidade utilizando descrições textuais. No entanto, os objetos gerados são estocásticos e carecem de controle refinado. Esboços fornecem uma abordagem econômica para introduzir esse controle refinado. No entanto, é desafiador alcançar controle flexível a partir desses esboços devido à sua abstração e ambiguidade. Neste artigo, apresentamos uma estrutura de geração de texto-para-3D guiada por esboços multi-visão (denominada Sketch2NeRF) para adicionar controle de esboço à geração 3D. Especificamente, nosso método aproveita modelos de difusão 2D pré-treinados (por exemplo, Stable Diffusion e ControlNet) para supervisionar a otimização de uma cena 3D representada por um campo de radiação neural (NeRF). Propomos um novo método de geração e reconstrução sincronizada para otimizar efetivamente o NeRF. Nos experimentos, coletamos dois tipos de conjuntos de dados de esboços multi-visão para avaliar o método proposto. Demonstramos que nosso método pode sintetizar conteúdos 3D consistentes com controle refinado de esboço, mantendo alta fidelidade aos prompts textuais. Resultados extensivos mostram que nosso método alcança desempenho de ponta em termos de similaridade de esboço e alinhamento de texto.
English
Recently, text-to-3D approaches have achieved high-fidelity 3D content
generation using text description. However, the generated objects are
stochastic and lack fine-grained control. Sketches provide a cheap approach to
introduce such fine-grained control. Nevertheless, it is challenging to achieve
flexible control from these sketches due to their abstraction and ambiguity. In
this paper, we present a multi-view sketch-guided text-to-3D generation
framework (namely, Sketch2NeRF) to add sketch control to 3D generation.
Specifically, our method leverages pretrained 2D diffusion models (e.g., Stable
Diffusion and ControlNet) to supervise the optimization of a 3D scene
represented by a neural radiance field (NeRF). We propose a novel synchronized
generation and reconstruction method to effectively optimize the NeRF. In the
experiments, we collected two kinds of multi-view sketch datasets to evaluate
the proposed method. We demonstrate that our method can synthesize 3D
consistent contents with fine-grained sketch control while being high-fidelity
to text prompts. Extensive results show that our method achieves
state-of-the-art performance in terms of sketch similarity and text alignment.