ChatPaper.aiChatPaper

Dual3D: Effiziente und konsistente Text-zu-3D Generierung mit Dual-Modus Multi-View Latenter Diffusion

Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion

May 16, 2024
Autoren: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI

Zusammenfassung

Wir präsentieren Dual3D, ein neuartiges Text-zu-3D-Generierungsframework, das hochwertige 3D-Objekte aus Texten in nur 1 Minute erzeugt. Die Schlüsselkomponente ist ein Dual-Modus Multi-View Latent Diffusion Model. Unter Verwendung der rauschigen Multi-View Latents kann der 2D-Modus diese effizient mit einem einzigen Latent-Denoising-Netzwerk bereinigen, während der 3D-Modus eine Tri-Ebenen-Neuralfläche für konsistentes Rendering-basiertes Denoising erzeugen kann. Die meisten Module für beide Modi sind von einem vortrainierten Text-zu-Bild-Latent Diffusion Model optimiert, um die teure Kosten des Trainings von Grund auf zu umgehen. Um die hohe Rendering-Kosten während der Inferenz zu überwinden, schlagen wir die Dual-Modus Umschalt-Inferenzstrategie vor, um nur 1/10 Denoising-Schritte mit dem 3D-Modus zu verwenden, was erfolgreich ein 3D-Objekt in nur 10 Sekunden erzeugt, ohne die Qualität zu beeinträchtigen. Die Textur des 3D-Objekts kann durch unseren effizienten Texturverfeinerungsprozess in kurzer Zeit weiter verbessert werden. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung bietet und gleichzeitig die Generierungszeit signifikant reduziert. Unsere Projektseite ist unter https://dual3d.github.io verfügbar.
English
We present Dual3D, a novel text-to-3D generation framework that generates high-quality 3D assets from texts in only 1 minute.The key component is a dual-mode multi-view latent diffusion model. Given the noisy multi-view latents, the 2D mode can efficiently denoise them with a single latent denoising network, while the 3D mode can generate a tri-plane neural surface for consistent rendering-based denoising. Most modules for both modes are tuned from a pre-trained text-to-image latent diffusion model to circumvent the expensive cost of training from scratch. To overcome the high rendering cost during inference, we propose the dual-mode toggling inference strategy to use only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in just 10 seconds without sacrificing quality. The texture of the 3D asset can be further enhanced by our efficient texture refinement process in a short time. Extensive experiments demonstrate that our method delivers state-of-the-art performance while significantly reducing generation time. Our project page is available at https://dual3d.github.io

Summary

AI-Generated Summary

PDF200December 15, 2024