Dual3D: Effiziente und konsistente Text-zu-3D Generierung mit Dual-Modus Multi-View Latenter Diffusion
Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion
May 16, 2024
Autoren: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI
Zusammenfassung
Wir präsentieren Dual3D, ein neuartiges Text-zu-3D-Generierungsframework, das hochwertige 3D-Objekte aus Texten in nur 1 Minute erzeugt. Die Schlüsselkomponente ist ein Dual-Modus Multi-View Latent Diffusion Model. Unter Verwendung der rauschigen Multi-View Latents kann der 2D-Modus diese effizient mit einem einzigen Latent-Denoising-Netzwerk bereinigen, während der 3D-Modus eine Tri-Ebenen-Neuralfläche für konsistentes Rendering-basiertes Denoising erzeugen kann. Die meisten Module für beide Modi sind von einem vortrainierten Text-zu-Bild-Latent Diffusion Model optimiert, um die teure Kosten des Trainings von Grund auf zu umgehen. Um die hohe Rendering-Kosten während der Inferenz zu überwinden, schlagen wir die Dual-Modus Umschalt-Inferenzstrategie vor, um nur 1/10 Denoising-Schritte mit dem 3D-Modus zu verwenden, was erfolgreich ein 3D-Objekt in nur 10 Sekunden erzeugt, ohne die Qualität zu beeinträchtigen. Die Textur des 3D-Objekts kann durch unseren effizienten Texturverfeinerungsprozess in kurzer Zeit weiter verbessert werden. Umfangreiche Experimente zeigen, dass unsere Methode eine Spitzenleistung bietet und gleichzeitig die Generierungszeit signifikant reduziert. Unsere Projektseite ist unter https://dual3d.github.io verfügbar.
English
We present Dual3D, a novel text-to-3D generation framework that generates
high-quality 3D assets from texts in only 1 minute.The key component is a
dual-mode multi-view latent diffusion model. Given the noisy multi-view
latents, the 2D mode can efficiently denoise them with a single latent
denoising network, while the 3D mode can generate a tri-plane neural surface
for consistent rendering-based denoising. Most modules for both modes are tuned
from a pre-trained text-to-image latent diffusion model to circumvent the
expensive cost of training from scratch. To overcome the high rendering cost
during inference, we propose the dual-mode toggling inference strategy to use
only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in
just 10 seconds without sacrificing quality. The texture of the 3D asset can
be further enhanced by our efficient texture refinement process in a short
time. Extensive experiments demonstrate that our method delivers
state-of-the-art performance while significantly reducing generation time. Our
project page is available at https://dual3d.github.ioSummary
AI-Generated Summary