Instant3D: Generazione Rapida da Testo a 3D con Creazione di Viste Sparse e Modello di Ricostruzione su Larga Scala
Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model
November 10, 2023
Autori: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI
Abstract
I modelli di diffusione per la generazione di testo-3D hanno compiuto progressi significativi negli ultimi anni. Tuttavia, i metodi esistenti si basano su ottimizzazioni basate sulla distillazione del punteggio, che soffrono di inferenza lenta, bassa diversità e problemi di Janus, oppure sono metodi feed-forward che producono risultati di bassa qualità a causa della scarsità di dati di addestramento 3D. In questo articolo, proponiamo Instant3D, un metodo innovativo che genera risorse 3D di alta qualità e diversificate da prompt di testo in modalità feed-forward. Adottiamo un paradigma a due stadi, che prima genera un insieme sparso di quattro viste strutturate e coerenti da testo in un solo passaggio con un modello di diffusione testo-immagine 2D fine-tuned, e poi regredisce direttamente il NeRF dalle immagini generate con un ricostruttore sparso basato su transformer. Attraverso esperimenti estensivi, dimostriamo che il nostro metodo può generare risorse 3D di alta qualità, diversificate e prive di problemi Janus in meno di 20 secondi, il che è due ordini di grandezza più veloce rispetto ai metodi basati su ottimizzazione che possono richiedere da 1 a 10 ore. La nostra pagina web del progetto: https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent
years. However, existing methods either rely on score distillation-based
optimization which suffer from slow inference, low diversity and Janus
problems, or are feed-forward methods that generate low quality results due to
the scarcity of 3D training data. In this paper, we propose Instant3D, a novel
method that generates high-quality and diverse 3D assets from text prompts in a
feed-forward manner. We adopt a two-stage paradigm, which first generates a
sparse set of four structured and consistent views from text in one shot with a
fine-tuned 2D text-to-image diffusion model, and then directly regresses the
NeRF from the generated images with a novel transformer-based sparse-view
reconstructor. Through extensive experiments, we demonstrate that our method
can generate high-quality, diverse and Janus-free 3D assets within 20 seconds,
which is two order of magnitude faster than previous optimization-based methods
that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.