Dual3D : Génération efficace et cohérente de texte en 3D avec une diffusion latente multi-vues en mode dual
Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion
May 16, 2024
Auteurs: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI
Résumé
Nous présentons Dual3D, un nouveau cadre de génération de texte-à-3D qui produit des actifs 3D de haute qualité à partir de textes en seulement 1 minute. L'élément clé est un modèle de diffusion latente multi-vues à double mode. Étant donné les latents multi-vues bruités, le mode 2D peut les débruiter efficacement avec un seul réseau de débruitage latent, tandis que le mode 3D peut générer une surface neuronale en tri-plan pour un débruitage cohérent basé sur le rendu. La plupart des modules pour les deux modes sont ajustés à partir d'un modèle de diffusion latente texte-à-image pré-entraîné pour éviter le coût élevé de l'entraînement à partir de zéro. Pour surmonter le coût élevé du rendu lors de l'inférence, nous proposons la stratégie d'inférence à basculement double mode pour n'utiliser que 1/10 des étapes de débruitage avec le mode 3D, générant ainsi un actif 3D en seulement 10 secondes sans sacrifier la qualité. La texture de l'actif 3D peut être encore améliorée par notre processus de raffinement de texture efficace en un temps court. Des expériences approfondies démontrent que notre méthode offre des performances de pointe tout en réduisant considérablement le temps de génération. Notre page de projet est disponible à l'adresse https://dual3d.github.io.
English
We present Dual3D, a novel text-to-3D generation framework that generates
high-quality 3D assets from texts in only 1 minute.The key component is a
dual-mode multi-view latent diffusion model. Given the noisy multi-view
latents, the 2D mode can efficiently denoise them with a single latent
denoising network, while the 3D mode can generate a tri-plane neural surface
for consistent rendering-based denoising. Most modules for both modes are tuned
from a pre-trained text-to-image latent diffusion model to circumvent the
expensive cost of training from scratch. To overcome the high rendering cost
during inference, we propose the dual-mode toggling inference strategy to use
only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in
just 10 seconds without sacrificing quality. The texture of the 3D asset can
be further enhanced by our efficient texture refinement process in a short
time. Extensive experiments demonstrate that our method delivers
state-of-the-art performance while significantly reducing generation time. Our
project page is available at https://dual3d.github.ioSummary
AI-Generated Summary