Dual3D: Generazione Efficiente e Coerente da Testo a 3D con Diffusione Latente Multi-vista a Doppia Modalità
Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion
May 16, 2024
Autori: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI
Abstract
Presentiamo Dual3D, un innovativo framework di generazione testo-3D in grado di produrre risorse 3D di alta qualità a partire da testi in soli 1 minuto. L'elemento chiave è un modello di diffusione latente multi-vista a doppia modalità. Dati i latenti multi-vista rumorosi, la modalità 2D può denoisarli efficientemente con una singola rete di denoising latente, mentre la modalità 3D può generare una superficie neurale tri-planare per un denoising basato su rendering coerente. La maggior parte dei moduli per entrambe le modalità è ottimizzata a partire da un modello pre-addestrato di diffusione latente testo-immagine, evitando così i costi elevati di un addestramento da zero. Per superare l'elevato costo computazionale del rendering durante l'inferenza, proponiamo una strategia di inferenza a commutazione di modalità che utilizza solo 1/10 dei passi di denoising con la modalità 3D, generando con successo una risorsa 3D in soli 10 secondi senza compromettere la qualità. La texture della risorsa 3D può essere ulteriormente migliorata dal nostro efficiente processo di raffinamento della texture in breve tempo. Esperimenti estesi dimostrano che il nostro metodo offre prestazioni all'avanguardia riducendo significativamente i tempi di generazione. La nostra pagina del progetto è disponibile all'indirizzo https://dual3d.github.io.
English
We present Dual3D, a novel text-to-3D generation framework that generates
high-quality 3D assets from texts in only 1 minute.The key component is a
dual-mode multi-view latent diffusion model. Given the noisy multi-view
latents, the 2D mode can efficiently denoise them with a single latent
denoising network, while the 3D mode can generate a tri-plane neural surface
for consistent rendering-based denoising. Most modules for both modes are tuned
from a pre-trained text-to-image latent diffusion model to circumvent the
expensive cost of training from scratch. To overcome the high rendering cost
during inference, we propose the dual-mode toggling inference strategy to use
only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in
just 10 seconds without sacrificing quality. The texture of the 3D asset can
be further enhanced by our efficient texture refinement process in a short
time. Extensive experiments demonstrate that our method delivers
state-of-the-art performance while significantly reducing generation time. Our
project page is available at https://dual3d.github.io