Instant3D: Generación Rápida de Texto a 3D con Creación de Vistas Escasas y Modelo de Reconstrucción a Gran Escala

Resumen

Los modelos de difusión para la generación de texto a 3D han logrado avances notables en los últimos años. Sin embargo, los métodos existentes dependen de una optimización basada en la destilación de puntuaciones, que sufre de inferencia lenta, baja diversidad y problemas de Janus, o son métodos de avance directo que generan resultados de baja calidad debido a la escasez de datos de entrenamiento en 3D. En este artículo, proponemos Instant3D, un método novedoso que genera activos 3D de alta calidad y diversos a partir de indicaciones de texto de manera directa. Adoptamos un paradigma de dos etapas, que primero genera un conjunto disperso de cuatro vistas estructuradas y consistentes a partir del texto en una sola pasada con un modelo de difusión de texto a imagen 2D ajustado, y luego regresa directamente el NeRF a partir de las imágenes generadas con un reconstructor basado en transformadores para vistas dispersas. A través de experimentos exhaustivos, demostramos que nuestro método puede generar activos 3D de alta calidad, diversos y libres de problemas de Janus en menos de 20 segundos, lo que es dos órdenes de magnitud más rápido que los métodos basados en optimización anteriores que pueden tardar de 1 a 10 horas. Nuestra página web del proyecto: https://jiahao.ai/instant3d/.

English

Text-to-3D with diffusion models have achieved remarkable progress in recent years. However, existing methods either rely on score distillation-based optimization which suffer from slow inference, low diversity and Janus problems, or are feed-forward methods that generate low quality results due to the scarcity of 3D training data. In this paper, we propose Instant3D, a novel method that generates high-quality and diverse 3D assets from text prompts in a feed-forward manner. We adopt a two-stage paradigm, which first generates a sparse set of four structured and consistent views from text in one shot with a fine-tuned 2D text-to-image diffusion model, and then directly regresses the NeRF from the generated images with a novel transformer-based sparse-view reconstructor. Through extensive experiments, we demonstrate that our method can generate high-quality, diverse and Janus-free 3D assets within 20 seconds, which is two order of magnitude faster than previous optimization-based methods that can take 1 to 10 hours. Our project webpage: https://jiahao.ai/instant3d/.

Instant3D: Generación Rápida de Texto a 3D con Creación de Vistas Escasas y Modelo de Reconstrucción a Gran Escala

Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model

Resumen

Support