Instant3D: Geração Rápida de Texto para 3D com Geração de Visões Escassas e Modelo de Reconstrução em Grande Escala
Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model
November 10, 2023
Autores: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI
Resumo
Text-to-3D com modelos de difusão tem alcançado progressos notáveis nos últimos anos. No entanto, os métodos existentes ou dependem de otimização baseada em destilação de pontuação, que sofrem com inferência lenta, baixa diversidade e problemas de Janus, ou são métodos feed-forward que geram resultados de baixa qualidade devido à escassez de dados de treinamento 3D. Neste artigo, propomos o Instant3D, um método novo que gera ativos 3D de alta qualidade e diversificados a partir de prompts de texto de maneira feed-forward. Adotamos um paradigma de dois estágios, que primeiro gera um conjunto esparso de quatro vistas estruturadas e consistentes a partir do texto em uma única passagem com um modelo de difusão 2D text-to-image ajustado, e então regride diretamente o NeRF a partir das imagens geradas com um reconstrutor baseado em transformer para vistas esparsas. Através de extensos experimentos, demonstramos que nosso método pode gerar ativos 3D de alta qualidade, diversificados e livres de Janus em até 20 segundos, o que é duas ordens de magnitude mais rápido do que os métodos baseados em otimização anteriores, que podem levar de 1 a 10 horas. Nossa página do projeto: https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent
years. However, existing methods either rely on score distillation-based
optimization which suffer from slow inference, low diversity and Janus
problems, or are feed-forward methods that generate low quality results due to
the scarcity of 3D training data. In this paper, we propose Instant3D, a novel
method that generates high-quality and diverse 3D assets from text prompts in a
feed-forward manner. We adopt a two-stage paradigm, which first generates a
sparse set of four structured and consistent views from text in one shot with a
fine-tuned 2D text-to-image diffusion model, and then directly regresses the
NeRF from the generated images with a novel transformer-based sparse-view
reconstructor. Through extensive experiments, we demonstrate that our method
can generate high-quality, diverse and Janus-free 3D assets within 20 seconds,
which is two order of magnitude faster than previous optimization-based methods
that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.