ChatPaper.aiChatPaper

Instant3D: Generación Rápida de Texto a 3D con Creación de Vistas Escasas y Modelo de Reconstrucción a Gran Escala

Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model

November 10, 2023
Autores: Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, Sai Bi
cs.AI

Resumen

Los modelos de difusión para la generación de texto a 3D han logrado avances notables en los últimos años. Sin embargo, los métodos existentes dependen de una optimización basada en la destilación de puntuaciones, que sufre de inferencia lenta, baja diversidad y problemas de Janus, o son métodos de avance directo que generan resultados de baja calidad debido a la escasez de datos de entrenamiento en 3D. En este artículo, proponemos Instant3D, un método novedoso que genera activos 3D de alta calidad y diversos a partir de indicaciones de texto de manera directa. Adoptamos un paradigma de dos etapas, que primero genera un conjunto disperso de cuatro vistas estructuradas y consistentes a partir del texto en una sola pasada con un modelo de difusión de texto a imagen 2D ajustado, y luego regresa directamente el NeRF a partir de las imágenes generadas con un reconstructor basado en transformadores para vistas dispersas. A través de experimentos exhaustivos, demostramos que nuestro método puede generar activos 3D de alta calidad, diversos y libres de problemas de Janus en menos de 20 segundos, lo que es dos órdenes de magnitud más rápido que los métodos basados en optimización anteriores que pueden tardar de 1 a 10 horas. Nuestra página web del proyecto: https://jiahao.ai/instant3d/.
English
Text-to-3D with diffusion models have achieved remarkable progress in recent years. However, existing methods either rely on score distillation-based optimization which suffer from slow inference, low diversity and Janus problems, or are feed-forward methods that generate low quality results due to the scarcity of 3D training data. In this paper, we propose Instant3D, a novel method that generates high-quality and diverse 3D assets from text prompts in a feed-forward manner. We adopt a two-stage paradigm, which first generates a sparse set of four structured and consistent views from text in one shot with a fine-tuned 2D text-to-image diffusion model, and then directly regresses the NeRF from the generated images with a novel transformer-based sparse-view reconstructor. Through extensive experiments, we demonstrate that our method can generate high-quality, diverse and Janus-free 3D assets within 20 seconds, which is two order of magnitude faster than previous optimization-based methods that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.
PDF334December 15, 2024