Instant3D: Generazione Istantanea da Testo a 3D

Abstract

La generazione da testo a 3D, che mira a sintetizzare oggetti 3D vividi a partire da prompt testuali, ha attirato molta attenzione dalla comunità di visione artificiale. Sebbene diversi lavori esistenti abbiano ottenuto risultati impressionanti in questo compito, si basano principalmente su un paradigma di ottimizzazione che richiede molto tempo. Nello specifico, questi metodi ottimizzano un campo neurale da zero per ogni prompt testuale, impiegando circa un'ora o più per generare un singolo oggetto. Questo costo di addestramento pesante e ripetitivo ne ostacola l'implementazione pratica. In questo articolo, proponiamo un nuovo framework per la generazione rapida da testo a 3D, denominato Instant3D. Una volta addestrato, Instant3D è in grado di creare un oggetto 3D per un prompt testuale non visto in meno di un secondo con una singola esecuzione di una rete feedforward. Raggiungiamo questa notevole velocità ideando una nuova rete che costruisce direttamente un triplano 3D da un prompt testuale. L'innovazione centrale del nostro Instant3D risiede nell'esplorazione di strategie per iniettare efficacemente le condizioni testuali nella rete. Inoltre, proponiamo una funzione di attivazione semplice ma efficace, la sigmoide scalata, per sostituire la funzione sigmoide originale, che accelera la convergenza dell'addestramento di oltre dieci volte. Infine, per affrontare il problema di Janus (multi-testa) nella generazione 3D, proponiamo un algoritmo Perp-Neg adattivo che può regolare dinamicamente le scale di negazione del concetto in base alla gravità del problema di Janus durante l'addestramento, riducendo efficacemente l'effetto multi-testa. Esperimenti estesi su una vasta gamma di dataset di benchmark dimostrano che l'algoritmo proposto si comporta favorevolmente rispetto ai metodi all'avanguardia sia qualitativamente che quantitativamente, raggiungendo al contempo un'efficienza significativamente migliore. La pagina del progetto è disponibile all'indirizzo https://ming1993li.github.io/Instant3DProj.

English

Text-to-3D generation, which aims to synthesize vivid 3D objects from text prompts, has attracted much attention from the computer vision community. While several existing works have achieved impressive results for this task, they mainly rely on a time-consuming optimization paradigm. Specifically, these methods optimize a neural field from scratch for each text prompt, taking approximately one hour or more to generate one object. This heavy and repetitive training cost impedes their practical deployment. In this paper, we propose a novel framework for fast text-to-3D generation, dubbed Instant3D. Once trained, Instant3D is able to create a 3D object for an unseen text prompt in less than one second with a single run of a feedforward network. We achieve this remarkable speed by devising a new network that directly constructs a 3D triplane from a text prompt. The core innovation of our Instant3D lies in our exploration of strategies to effectively inject text conditions into the network. Furthermore, we propose a simple yet effective activation function, the scaled-sigmoid, to replace the original sigmoid function, which speeds up the training convergence by more than ten times. Finally, to address the Janus (multi-head) problem in 3D generation, we propose an adaptive Perp-Neg algorithm that can dynamically adjust its concept negation scales according to the severity of the Janus problem during training, effectively reducing the multi-head effect. Extensive experiments on a wide variety of benchmark datasets demonstrate that the proposed algorithm performs favorably against the state-of-the-art methods both qualitatively and quantitatively, while achieving significantly better efficiency. The project page is at https://ming1993li.github.io/Instant3DProj.

Instant3D: Generazione Istantanea da Testo a 3D

Instant3D: Instant Text-to-3D Generation

Abstract

Support