ChatPaper.aiChatPaper

Dual3D : Génération efficace et cohérente de texte en 3D avec une diffusion latente multi-vues en mode dual

Dual3D: Efficient and Consistent Text-to-3D Generation with Dual-mode Multi-view Latent Diffusion

May 16, 2024
Auteurs: Xinyang Li, Zhangyu Lai, Linning Xu, Jianfei Guo, Liujuan Cao, Shengchuan Zhang, Bo Dai, Rongrong Ji
cs.AI

Résumé

Nous présentons Dual3D, un nouveau cadre de génération de texte-à-3D qui produit des actifs 3D de haute qualité à partir de textes en seulement 1 minute. L'élément clé est un modèle de diffusion latente multi-vues à double mode. Étant donné les latents multi-vues bruités, le mode 2D peut les débruiter efficacement avec un seul réseau de débruitage latent, tandis que le mode 3D peut générer une surface neuronale en tri-plan pour un débruitage cohérent basé sur le rendu. La plupart des modules pour les deux modes sont ajustés à partir d'un modèle de diffusion latente texte-à-image pré-entraîné pour éviter le coût élevé de l'entraînement à partir de zéro. Pour surmonter le coût élevé du rendu lors de l'inférence, nous proposons la stratégie d'inférence à basculement double mode pour n'utiliser que 1/10 des étapes de débruitage avec le mode 3D, générant ainsi un actif 3D en seulement 10 secondes sans sacrifier la qualité. La texture de l'actif 3D peut être encore améliorée par notre processus de raffinement de texture efficace en un temps court. Des expériences approfondies démontrent que notre méthode offre des performances de pointe tout en réduisant considérablement le temps de génération. Notre page de projet est disponible à l'adresse https://dual3d.github.io.
English
We present Dual3D, a novel text-to-3D generation framework that generates high-quality 3D assets from texts in only 1 minute.The key component is a dual-mode multi-view latent diffusion model. Given the noisy multi-view latents, the 2D mode can efficiently denoise them with a single latent denoising network, while the 3D mode can generate a tri-plane neural surface for consistent rendering-based denoising. Most modules for both modes are tuned from a pre-trained text-to-image latent diffusion model to circumvent the expensive cost of training from scratch. To overcome the high rendering cost during inference, we propose the dual-mode toggling inference strategy to use only 1/10 denoising steps with 3D mode, successfully generating a 3D asset in just 10 seconds without sacrificing quality. The texture of the 3D asset can be further enhanced by our efficient texture refinement process in a short time. Extensive experiments demonstrate that our method delivers state-of-the-art performance while significantly reducing generation time. Our project page is available at https://dual3d.github.io

Summary

AI-Generated Summary

PDF200December 15, 2024