Instant3D: Schnelle Text-zu-3D-Erzeugung mit Sparse-View-Generierung und großem Rekonstruktionsmodell
Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model
November 10, 2023
Autoren: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI
Zusammenfassung
Text-to-3D mit Diffusionsmodellen hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Allerdings basieren bestehende Methoden entweder auf einer optimierungsbasierten Score-Distillation, die unter langsamer Inferenz, geringer Diversität und Janus-Problemen leidet, oder es handelt sich um Feed-Forward-Methoden, die aufgrund der Knappheit von 3D-Trainingsdaten qualitativ minderwertige Ergebnisse erzeugen. In diesem Artikel stellen wir Instant3D vor, eine neuartige Methode, die hochwertige und vielfältige 3D-Assets aus Textprompts in einem Feed-Forward-Verfahren generiert. Wir verwenden ein zweistufiges Paradigma, bei dem zunächst mit einem feinabgestimmten 2D-Text-to-Image-Diffusionsmodell in einem Schritt eine spärliche Menge von vier strukturierten und konsistenten Ansichten aus Text erzeugt wird. Anschließend wird das NeRF direkt aus den generierten Bildern mit einem neuartigen transformerbasierten Sparse-View-Rekonstruktor regressiert. Durch umfangreiche Experimente zeigen wir, dass unsere Methode hochwertige, vielfältige und Janus-freie 3D-Assets innerhalb von 20 Sekunden erzeugen kann, was zwei Größenordnungen schneller ist als bisherige optimierungsbasierte Methoden, die 1 bis 10 Stunden benötigen. Unsere Projektwebseite: https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent
years. However, existing methods either rely on score distillation-based
optimization which suffer from slow inference, low diversity and Janus
problems, or are feed-forward methods that generate low quality results due to
the scarcity of 3D training data. In this paper, we propose Instant3D, a novel
method that generates high-quality and diverse 3D assets from text prompts in a
feed-forward manner. We adopt a two-stage paradigm, which first generates a
sparse set of four structured and consistent views from text in one shot with a
fine-tuned 2D text-to-image diffusion model, and then directly regresses the
NeRF from the generated images with a novel transformer-based sparse-view
reconstructor. Through extensive experiments, we demonstrate that our method
can generate high-quality, diverse and Janus-free 3D assets within 20 seconds,
which is two order of magnitude faster than previous optimization-based methods
that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.