Instant3D: Generación Instantánea de Texto a 3D
Instant3D: Instant Text-to-3D Generation
November 14, 2023
Autores: Ming Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu
cs.AI
Resumen
La generación de texto a 3D, que tiene como objetivo sintetizar objetos 3D vívidos a partir de indicaciones de texto, ha atraído mucha atención de la comunidad de visión por computadora. Aunque varios trabajos existentes han logrado resultados impresionantes en esta tarea, principalmente dependen de un paradigma de optimización que consume mucho tiempo. Específicamente, estos métodos optimizan un campo neuronal desde cero para cada indicación de texto, tomando aproximadamente una hora o más para generar un objeto. Este costo de entrenamiento pesado y repetitivo dificulta su implementación práctica. En este artículo, proponemos un marco novedoso para la generación rápida de texto a 3D, denominado Instant3D. Una vez entrenado, Instant3D es capaz de crear un objeto 3D para una indicación de texto no vista en menos de un segundo con una sola ejecución de una red de avance. Logramos esta velocidad notable al diseñar una nueva red que construye directamente un triplano 3D a partir de una indicación de texto. La innovación central de nuestro Instant3D radica en nuestra exploración de estrategias para inyectar efectivamente condiciones de texto en la red. Además, proponemos una función de activación simple pero efectiva, la sigmoide escalada, para reemplazar la función sigmoide original, lo que acelera la convergencia del entrenamiento más de diez veces. Finalmente, para abordar el problema de Janus (multi-cabeza) en la generación 3D, proponemos un algoritmo Perp-Neg adaptativo que puede ajustar dinámicamente sus escalas de negación de concepto según la gravedad del problema de Janus durante el entrenamiento, reduciendo efectivamente el efecto multi-cabeza. Experimentos extensos en una amplia variedad de conjuntos de datos de referencia demuestran que el algoritmo propuesto se desempeña favorablemente en comparación con los métodos más avanzados tanto cualitativa como cuantitativamente, mientras logra una eficiencia significativamente mejor. La página del proyecto está en https://ming1993li.github.io/Instant3DProj.
English
Text-to-3D generation, which aims to synthesize vivid 3D objects from text
prompts, has attracted much attention from the computer vision community. While
several existing works have achieved impressive results for this task, they
mainly rely on a time-consuming optimization paradigm. Specifically, these
methods optimize a neural field from scratch for each text prompt, taking
approximately one hour or more to generate one object. This heavy and
repetitive training cost impedes their practical deployment. In this paper, we
propose a novel framework for fast text-to-3D generation, dubbed Instant3D.
Once trained, Instant3D is able to create a 3D object for an unseen text prompt
in less than one second with a single run of a feedforward network. We achieve
this remarkable speed by devising a new network that directly constructs a 3D
triplane from a text prompt. The core innovation of our Instant3D lies in our
exploration of strategies to effectively inject text conditions into the
network. Furthermore, we propose a simple yet effective activation function,
the scaled-sigmoid, to replace the original sigmoid function, which speeds up
the training convergence by more than ten times. Finally, to address the Janus
(multi-head) problem in 3D generation, we propose an adaptive Perp-Neg
algorithm that can dynamically adjust its concept negation scales according to
the severity of the Janus problem during training, effectively reducing the
multi-head effect. Extensive experiments on a wide variety of benchmark
datasets demonstrate that the proposed algorithm performs favorably against the
state-of-the-art methods both qualitatively and quantitatively, while achieving
significantly better efficiency. The project page is at
https://ming1993li.github.io/Instant3DProj.