ChatPaper.aiChatPaper

Instant3D: Geração Rápida de Texto para 3D com Geração de Visões Escassas e Modelo de Reconstrução em Grande Escala

Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model

November 10, 2023
Autores: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI

Resumo

Text-to-3D com modelos de difusão tem alcançado progressos notáveis nos últimos anos. No entanto, os métodos existentes ou dependem de otimização baseada em destilação de pontuação, que sofrem com inferência lenta, baixa diversidade e problemas de Janus, ou são métodos feed-forward que geram resultados de baixa qualidade devido à escassez de dados de treinamento 3D. Neste artigo, propomos o Instant3D, um método novo que gera ativos 3D de alta qualidade e diversificados a partir de prompts de texto de maneira feed-forward. Adotamos um paradigma de dois estágios, que primeiro gera um conjunto esparso de quatro vistas estruturadas e consistentes a partir do texto em uma única passagem com um modelo de difusão 2D text-to-image ajustado, e então regride diretamente o NeRF a partir das imagens geradas com um reconstrutor baseado em transformer para vistas esparsas. Através de extensos experimentos, demonstramos que nosso método pode gerar ativos 3D de alta qualidade, diversificados e livres de Janus em até 20 segundos, o que é duas ordens de magnitude mais rápido do que os métodos baseados em otimização anteriores, que podem levar de 1 a 10 horas. Nossa página do projeto: https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent years. However, existing methods either rely on score distillation-based optimization which suffer from slow inference, low diversity and Janus problems, or are feed-forward methods that generate low quality results due to the scarcity of 3D training data. In this paper, we propose Instant3D, a novel method that generates high-quality and diverse 3D assets from text prompts in a feed-forward manner. We adopt a two-stage paradigm, which first generates a sparse set of four structured and consistent views from text in one shot with a fine-tuned 2D text-to-image diffusion model, and then directly regresses the NeRF from the generated images with a novel transformer-based sparse-view reconstructor. Through extensive experiments, we demonstrate that our method can generate high-quality, diverse and Janus-free 3D assets within 20 seconds, which is two order of magnitude faster than previous optimization-based methods that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.
PDF334December 15, 2024