Instant3D: Generazione Rapida da Testo a 3D con Creazione di Viste Sparse e Modello di Ricostruzione su Larga Scala

Abstract

I modelli di diffusione per la generazione di testo-3D hanno compiuto progressi significativi negli ultimi anni. Tuttavia, i metodi esistenti si basano su ottimizzazioni basate sulla distillazione del punteggio, che soffrono di inferenza lenta, bassa diversità e problemi di Janus, oppure sono metodi feed-forward che producono risultati di bassa qualità a causa della scarsità di dati di addestramento 3D. In questo articolo, proponiamo Instant3D, un metodo innovativo che genera risorse 3D di alta qualità e diversificate da prompt di testo in modalità feed-forward. Adottiamo un paradigma a due stadi, che prima genera un insieme sparso di quattro viste strutturate e coerenti da testo in un solo passaggio con un modello di diffusione testo-immagine 2D fine-tuned, e poi regredisce direttamente il NeRF dalle immagini generate con un ricostruttore sparso basato su transformer. Attraverso esperimenti estensivi, dimostriamo che il nostro metodo può generare risorse 3D di alta qualità, diversificate e prive di problemi Janus in meno di 20 secondi, il che è due ordini di grandezza più veloce rispetto ai metodi basati su ottimizzazione che possono richiedere da 1 a 10 ore. La nostra pagina web del progetto: https://jiahao.ai/instant3d/.

English

Text-to-3D with diffusion models have achieved remarkable progress in recent years. However, existing methods either rely on score distillation-based optimization which suffer from slow inference, low diversity and Janus problems, or are feed-forward methods that generate low quality results due to the scarcity of 3D training data. In this paper, we propose Instant3D, a novel method that generates high-quality and diverse 3D assets from text prompts in a feed-forward manner. We adopt a two-stage paradigm, which first generates a sparse set of four structured and consistent views from text in one shot with a fine-tuned 2D text-to-image diffusion model, and then directly regresses the NeRF from the generated images with a novel transformer-based sparse-view reconstructor. Through extensive experiments, we demonstrate that our method can generate high-quality, diverse and Janus-free 3D assets within 20 seconds, which is two order of magnitude faster than previous optimization-based methods that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.

Instant3D: Generazione Rapida da Testo a 3D con Creazione di Viste Sparse e Modello di Ricostruzione su Larga Scala

Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model

Abstract

Support