ChatPaper.aiChatPaper

Instant3D: Schnelle Text-zu-3D-Erzeugung mit Sparse-View-Generierung und großem Rekonstruktionsmodell

Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model

November 10, 2023
Autoren: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI

Zusammenfassung

Text-to-3D mit Diffusionsmodellen hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Allerdings basieren bestehende Methoden entweder auf einer optimierungsbasierten Score-Distillation, die unter langsamer Inferenz, geringer Diversität und Janus-Problemen leidet, oder es handelt sich um Feed-Forward-Methoden, die aufgrund der Knappheit von 3D-Trainingsdaten qualitativ minderwertige Ergebnisse erzeugen. In diesem Artikel stellen wir Instant3D vor, eine neuartige Methode, die hochwertige und vielfältige 3D-Assets aus Textprompts in einem Feed-Forward-Verfahren generiert. Wir verwenden ein zweistufiges Paradigma, bei dem zunächst mit einem feinabgestimmten 2D-Text-to-Image-Diffusionsmodell in einem Schritt eine spärliche Menge von vier strukturierten und konsistenten Ansichten aus Text erzeugt wird. Anschließend wird das NeRF direkt aus den generierten Bildern mit einem neuartigen transformerbasierten Sparse-View-Rekonstruktor regressiert. Durch umfangreiche Experimente zeigen wir, dass unsere Methode hochwertige, vielfältige und Janus-freie 3D-Assets innerhalb von 20 Sekunden erzeugen kann, was zwei Größenordnungen schneller ist als bisherige optimierungsbasierte Methoden, die 1 bis 10 Stunden benötigen. Unsere Projektwebseite: https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent years. However, existing methods either rely on score distillation-based optimization which suffer from slow inference, low diversity and Janus problems, or are feed-forward methods that generate low quality results due to the scarcity of 3D training data. In this paper, we propose Instant3D, a novel method that generates high-quality and diverse 3D assets from text prompts in a feed-forward manner. We adopt a two-stage paradigm, which first generates a sparse set of four structured and consistent views from text in one shot with a fine-tuned 2D text-to-image diffusion model, and then directly regresses the NeRF from the generated images with a novel transformer-based sparse-view reconstructor. Through extensive experiments, we demonstrate that our method can generate high-quality, diverse and Janus-free 3D assets within 20 seconds, which is two order of magnitude faster than previous optimization-based methods that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.
PDF334December 15, 2024