Instant3D : Génération instantanée de texte en 3D
Instant3D: Instant Text-to-3D Generation
November 14, 2023
Auteurs: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu
cs.AI
Résumé
La génération de texte-à-3D, qui vise à synthétiser des objets 3D réalistes à partir de descriptions textuelles, a suscité un intérêt considérable dans la communauté de la vision par ordinateur. Bien que plusieurs travaux existants aient obtenu des résultats impressionnants pour cette tâche, ils reposent principalement sur un paradigme d'optimisation long et fastidieux. Plus précisément, ces méthodes optimisent un champ neuronal à partir de zéro pour chaque description textuelle, prenant environ une heure ou plus pour générer un seul objet. Ce coût de formation élevé et répétitif entrave leur déploiement pratique. Dans cet article, nous proposons un nouveau cadre pour la génération rapide de texte-à-3D, baptisé Instant3D. Une fois entraîné, Instant3D est capable de créer un objet 3D pour une description textuelle inédite en moins d'une seconde avec une seule exécution d'un réseau feedforward. Nous atteignons cette vitesse remarquable en concevant un nouveau réseau qui construit directement un triplan 3D à partir d'une description textuelle. L'innovation clé de notre Instant3D réside dans notre exploration de stratégies pour injecter efficacement les conditions textuelles dans le réseau. De plus, nous proposons une fonction d'activation simple mais efficace, la sigmoïde mise à l'échelle, pour remplacer la fonction sigmoïde originale, ce qui accélère la convergence de l'entraînement de plus de dix fois. Enfin, pour résoudre le problème de Janus (multi-têtes) dans la génération 3D, nous proposons un algorithme Perp-Neg adaptatif qui peut ajuster dynamiquement ses échelles de négation de concept en fonction de la gravité du problème de Janus pendant l'entraînement, réduisant ainsi efficacement l'effet multi-têtes. Des expériences approfondies sur une grande variété de jeux de données de référence démontrent que l'algorithme proposé surpasse les méthodes de pointe à la fois qualitativement et quantitativement, tout en offrant une efficacité nettement supérieure. La page du projet est disponible à l'adresse https://ming1993li.github.io/Instant3DProj.
English
Text-to-3D generation, which aims to synthesize vivid 3D objects from text
prompts, has attracted much attention from the computer vision community. While
several existing works have achieved impressive results for this task, they
mainly rely on a time-consuming optimization paradigm. Specifically, these
methods optimize a neural field from scratch for each text prompt, taking
approximately one hour or more to generate one object. This heavy and
repetitive training cost impedes their practical deployment. In this paper, we
propose a novel framework for fast text-to-3D generation, dubbed Instant3D.
Once trained, Instant3D is able to create a 3D object for an unseen text prompt
in less than one second with a single run of a feedforward network. We achieve
this remarkable speed by devising a new network that directly constructs a 3D
triplane from a text prompt. The core innovation of our Instant3D lies in our
exploration of strategies to effectively inject text conditions into the
network. Furthermore, we propose a simple yet effective activation function,
the scaled-sigmoid, to replace the original sigmoid function, which speeds up
the training convergence by more than ten times. Finally, to address the Janus
(multi-head) problem in 3D generation, we propose an adaptive Perp-Neg
algorithm that can dynamically adjust its concept negation scales according to
the severity of the Janus problem during training, effectively reducing the
multi-head effect. Extensive experiments on a wide variety of benchmark
datasets demonstrate that the proposed algorithm performs favorably against the
state-of-the-art methods both qualitatively and quantitatively, while achieving
significantly better efficiency. The project page is at
https://ming1993li.github.io/Instant3DProj.