ChatPaper.aiChatPaper

Dual3D: Generación eficiente y consistente de texto a 3D con Difusión Latente Multivista de Modo Dual

Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion

May 16, 2024
Autores: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI

Resumen

Presentamos Dual3D, un novedoso marco de generación de texto a 3D que produce activos 3D de alta calidad a partir de textos en solo 1 minuto. El componente clave es un modelo de difusión latente multimodal de vistas múltiples. Dados los latentes ruidosos de múltiples vistas, el modo 2D puede desruidizarlos eficientemente con una única red de desruido latente, mientras que el modo 3D puede generar una superficie neuronal de triple plano para un desruido consistente basado en renderizado. La mayoría de los módulos para ambos modos se ajustan a partir de un modelo preentrenado de difusión latente de texto a imagen, evitando así el costoso entrenamiento desde cero. Para superar el alto costo de renderizado durante la inferencia, proponemos una estrategia de inferencia de conmutación multimodal que utiliza solo 1/10 de los pasos de desruido en el modo 3D, generando con éxito un activo 3D en apenas 10 segundos sin sacrificar la calidad. La textura del activo 3D puede mejorarse aún más mediante nuestro eficiente proceso de refinamiento de texturas en poco tiempo. Experimentos exhaustivos demuestran que nuestro método ofrece un rendimiento de vanguardia mientras reduce significativamente el tiempo de generación. Nuestra página del proyecto está disponible en https://dual3d.github.io.
English
We present Dual3D, a novel text-to-3D generation framework that generates high-quality 3D assets from texts in only 1 minute.The key component is a dual-mode multi-view latent diffusion model. Given the noisy multi-view latents, the 2D mode can efficiently denoise them with a single latent denoising network, while the 3D mode can generate a tri-plane neural surface for consistent rendering-based denoising. Most modules for both modes are tuned from a pre-trained text-to-image latent diffusion model to circumvent the expensive cost of training from scratch. To overcome the high rendering cost during inference, we propose the dual-mode toggling inference strategy to use only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in just 10 seconds without sacrificing quality. The texture of the 3D asset can be further enhanced by our efficient texture refinement process in a short time. Extensive experiments demonstrate that our method delivers state-of-the-art performance while significantly reducing generation time. Our project page is available at https://dual3d.github.io

Summary

AI-Generated Summary

PDF200December 15, 2024