Dual3D: Geração Eficiente e Consistente de Texto para 3D com Difusão Latente Multivista de Modo Duplo
Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion
May 16, 2024
Autores: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI
Resumo
Apresentamos o Dual3D, uma nova estrutura de geração de texto-para-3D que produz ativos 3D de alta qualidade a partir de textos em apenas 1 minuto. O componente principal é um modelo de difusão latente multi-visualização de modo duplo. Dados os latentes multi-visualização ruidosos, o modo 2D pode desnaturá-los eficientemente com uma única rede de desnaturação latente, enquanto o modo 3D pode gerar uma superfície neural triplana para desnaturação consistente baseada em renderização. A maioria dos módulos para ambos os modos é ajustada a partir de um modelo de difusão latente texto-para-imagem pré-treinado, evitando o custo elevado de treinamento a partir do zero. Para superar o alto custo de renderização durante a inferência, propomos a estratégia de inferência de alternância de modo duplo, utilizando apenas 1/10 dos passos de desnaturação com o modo 3D, gerando com sucesso um ativo 3D em apenas 10 segundos sem sacrificar a qualidade. A textura do ativo 3D pode ser ainda mais aprimorada pelo nosso processo eficiente de refinamento de textura em um curto período de tempo. Experimentos extensivos demonstram que nosso método oferece desempenho de ponta enquanto reduz significativamente o tempo de geração. Nossa página do projeto está disponível em https://dual3d.github.io
English
We present Dual3D, a novel text-to-3D generation framework that generates
high-quality 3D assets from texts in only 1 minute.The key component is a
dual-mode multi-view latent diffusion model. Given the noisy multi-view
latents, the 2D mode can efficiently denoise them with a single latent
denoising network, while the 3D mode can generate a tri-plane neural surface
for consistent rendering-based denoising. Most modules for both modes are tuned
from a pre-trained text-to-image latent diffusion model to circumvent the
expensive cost of training from scratch. To overcome the high rendering cost
during inference, we propose the dual-mode toggling inference strategy to use
only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in
just 10 seconds without sacrificing quality. The texture of the 3D asset can
be further enhanced by our efficient texture refinement process in a short
time. Extensive experiments demonstrate that our method delivers
state-of-the-art performance while significantly reducing generation time. Our
project page is available at https://dual3d.github.io