Instant3D : Génération rapide de texte en 3D avec création d'images éparses et modèle de reconstruction à grande échelle
Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model
November 10, 2023
Auteurs: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI
Résumé
La génération de modèles 3D à partir de texte avec des modèles de diffusion a connu des progrès remarquables ces dernières années. Cependant, les méthodes existantes reposent soit sur une optimisation basée sur la distillation de scores, qui souffre d'une inférence lente, d'une faible diversité et de problèmes de Janus, soit sur des méthodes en flux direct qui produisent des résultats de faible qualité en raison de la rareté des données d'entraînement 3D. Dans cet article, nous proposons Instant3D, une nouvelle méthode qui génère des actifs 3D de haute qualité et diversifiés à partir de prompts textuels de manière en flux direct. Nous adoptons un paradigme en deux étapes : d'abord, nous générons un ensemble épars de quatre vues structurées et cohérentes à partir du texte en une seule étape avec un modèle de diffusion texte-à-image affiné, puis nous régressons directement le NeRF à partir des images générées avec un reconstructeur basé sur un transformateur pour les vues éparses. À travers des expériences approfondies, nous démontrons que notre méthode peut générer des actifs 3D de haute qualité, diversifiés et exempts de problèmes de Janus en moins de 20 secondes, ce qui est deux ordres de grandeur plus rapide que les méthodes basées sur l'optimisation précédentes qui peuvent prendre de 1 à 10 heures. Notre page web de projet : https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent
years. However, existing methods either rely on score distillation-based
optimization which suffer from slow inference, low diversity and Janus
problems, or are feed-forward methods that generate low quality results due to
the scarcity of 3D training data. In this paper, we propose Instant3D, a novel
method that generates high-quality and diverse 3D assets from text prompts in a
feed-forward manner. We adopt a two-stage paradigm, which first generates a
sparse set of four structured and consistent views from text in one shot with a
fine-tuned 2D text-to-image diffusion model, and then directly regresses the
NeRF from the generated images with a novel transformer-based sparse-view
reconstructor. Through extensive experiments, we demonstrate that our method
can generate high-quality, diverse and Janus-free 3D assets within 20 seconds,
which is two order of magnitude faster than previous optimization-based methods
that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.