Instant3D: Generación Rápida de Texto a 3D con Creación de Vistas Escasas y Modelo de Reconstrucción a Gran Escala
Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model
November 10, 2023
Autores: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI
Resumen
Los modelos de difusión para la generación de texto a 3D han logrado avances notables en los últimos años. Sin embargo, los métodos existentes dependen de una optimización basada en la destilación de puntuaciones, que sufre de inferencia lenta, baja diversidad y problemas de Janus, o son métodos de avance directo que generan resultados de baja calidad debido a la escasez de datos de entrenamiento en 3D. En este artículo, proponemos Instant3D, un método novedoso que genera activos 3D de alta calidad y diversos a partir de indicaciones de texto de manera directa. Adoptamos un paradigma de dos etapas, que primero genera un conjunto disperso de cuatro vistas estructuradas y consistentes a partir del texto en una sola pasada con un modelo de difusión de texto a imagen 2D ajustado, y luego regresa directamente el NeRF a partir de las imágenes generadas con un reconstructor basado en transformadores para vistas dispersas. A través de experimentos exhaustivos, demostramos que nuestro método puede generar activos 3D de alta calidad, diversos y libres de problemas de Janus en menos de 20 segundos, lo que es dos órdenes de magnitud más rápido que los métodos basados en optimización anteriores que pueden tardar de 1 a 10 horas. Nuestra página web del proyecto: https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent
years. However, existing methods either rely on score distillation-based
optimization which suffer from slow inference, low diversity and Janus
problems, or are feed-forward methods that generate low quality results due to
the scarcity of 3D training data. In this paper, we propose Instant3D, a novel
method that generates high-quality and diverse 3D assets from text prompts in a
feed-forward manner. We adopt a two-stage paradigm, which first generates a
sparse set of four structured and consistent views from text in one shot with a
fine-tuned 2D text-to-image diffusion model, and then directly regresses the
NeRF from the generated images with a novel transformer-based sparse-view
reconstructor. Through extensive experiments, we demonstrate that our method
can generate high-quality, diverse and Janus-free 3D assets within 20 seconds,
which is two order of magnitude faster than previous optimization-based methods
that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.