Dual3D: Efficiënte en consistente tekst-naar-3D-generatie met dual-mode multi-view latent diffusion
Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion
May 16, 2024
Auteurs: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI
Samenvatting
We presenteren Dual3D, een nieuw tekst-naar-3D-generatieframework dat hoogwaardige 3D-assets genereert uit tekst in slechts 1 minuut. Het belangrijkste onderdeel is een dual-mode multi-view latent diffusiemodel. Gegeven de ruisachtige multi-view latenten, kan de 2D-modus deze efficiënt denoisen met een enkel latent denoising-netwerk, terwijl de 3D-modus een tri-plane neurale oppervlakte kan genereren voor consistente rendering-gebaseerde denoising. De meeste modules voor beide modi zijn afgestemd vanuit een vooraf getraind tekst-naar-beeld latent diffusiemodel om de hoge kosten van training vanaf nul te omzeilen. Om de hoge renderingkosten tijdens inferentie te overwinnen, stellen we de dual-mode toggling inferentiestrategie voor om slechts 1/10 denoisingstappen met de 3D-modus te gebruiken, waardoor succesvol een 3D-asset wordt gegenereerd in slechts 10 seconden zonder kwaliteitsverlies. De textuur van het 3D-asset kan verder worden verbeterd door ons efficiënte textuurverfijningsproces in korte tijd. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art prestaties levert terwijl de generatietijd aanzienlijk wordt verkort. Onze projectpagina is beschikbaar op https://dual3d.github.io.
English
We present Dual3D, a novel text-to-3D generation framework that generates
high-quality 3D assets from texts in only 1 minute.The key component is a
dual-mode multi-view latent diffusion model. Given the noisy multi-view
latents, the 2D mode can efficiently denoise them with a single latent
denoising network, while the 3D mode can generate a tri-plane neural surface
for consistent rendering-based denoising. Most modules for both modes are tuned
from a pre-trained text-to-image latent diffusion model to circumvent the
expensive cost of training from scratch. To overcome the high rendering cost
during inference, we propose the dual-mode toggling inference strategy to use
only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in
just 10 seconds without sacrificing quality. The texture of the 3D asset can
be further enhanced by our efficient texture refinement process in a short
time. Extensive experiments demonstrate that our method delivers
state-of-the-art performance while significantly reducing generation time. Our
project page is available at https://dual3d.github.io