ChatPaper.aiChatPaper

Dual3D: Efficiënte en consistente tekst-naar-3D-generatie met dual-mode multi-view latent diffusion

Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion

May 16, 2024
Auteurs: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI

Samenvatting

We presenteren Dual3D, een nieuw tekst-naar-3D-generatieframework dat hoogwaardige 3D-assets genereert uit tekst in slechts 1 minuut. Het belangrijkste onderdeel is een dual-mode multi-view latent diffusiemodel. Gegeven de ruisachtige multi-view latenten, kan de 2D-modus deze efficiënt denoisen met een enkel latent denoising-netwerk, terwijl de 3D-modus een tri-plane neurale oppervlakte kan genereren voor consistente rendering-gebaseerde denoising. De meeste modules voor beide modi zijn afgestemd vanuit een vooraf getraind tekst-naar-beeld latent diffusiemodel om de hoge kosten van training vanaf nul te omzeilen. Om de hoge renderingkosten tijdens inferentie te overwinnen, stellen we de dual-mode toggling inferentiestrategie voor om slechts 1/10 denoisingstappen met de 3D-modus te gebruiken, waardoor succesvol een 3D-asset wordt gegenereerd in slechts 10 seconden zonder kwaliteitsverlies. De textuur van het 3D-asset kan verder worden verbeterd door ons efficiënte textuurverfijningsproces in korte tijd. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art prestaties levert terwijl de generatietijd aanzienlijk wordt verkort. Onze projectpagina is beschikbaar op https://dual3d.github.io.
English
We present Dual3D, a novel text-to-3D generation framework that generates high-quality 3D assets from texts in only 1 minute.The key component is a dual-mode multi-view latent diffusion model. Given the noisy multi-view latents, the 2D mode can efficiently denoise them with a single latent denoising network, while the 3D mode can generate a tri-plane neural surface for consistent rendering-based denoising. Most modules for both modes are tuned from a pre-trained text-to-image latent diffusion model to circumvent the expensive cost of training from scratch. To overcome the high rendering cost during inference, we propose the dual-mode toggling inference strategy to use only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in just 10 seconds without sacrificing quality. The texture of the 3D asset can be further enhanced by our efficient texture refinement process in a short time. Extensive experiments demonstrate that our method delivers state-of-the-art performance while significantly reducing generation time. Our project page is available at https://dual3d.github.io
PDF200December 15, 2024