GaussianDreamer: Generación Rápida de Texto a 3D Gaussian Splatting con Prioridades de Nube de Puntos
GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors
October 12, 2023
Autores: Taoran Yi, Jiemin Fang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI
Resumen
En tiempos recientes, la generación de activos 3D a partir de indicaciones de texto ha mostrado resultados impresionantes. Tanto los modelos de difusión 2D como 3D pueden generar objetos 3D decentes basados en indicaciones. Los modelos de difusión 3D tienen una buena consistencia 3D, pero su calidad y generalización están limitadas debido a que los datos 3D entrenables son costosos y difíciles de obtener. Los modelos de difusión 2D disfrutan de una fuerte capacidad de generalización y generación detallada, pero es difícil garantizar la consistencia 3D. Este artículo intenta unir el poder de ambos tipos de modelos de difusión mediante la reciente representación explícita y eficiente de splatting con Gaussianas 3D. Se propone un marco rápido de generación 3D, denominado \name, donde el modelo de difusión 3D proporciona priores de nube de puntos para la inicialización y el modelo de difusión 2D enriquece la geometría y la apariencia. Se introducen operaciones de crecimiento de puntos ruidosos y perturbación de color para mejorar las Gaussianas inicializadas. Nuestro \name puede generar una instancia 3D de alta calidad en menos de 25 minutos en una GPU, mucho más rápido que los métodos anteriores, mientras que las instancias generadas pueden renderizarse directamente en tiempo real. Demostraciones y código están disponibles en https://taoranyi.com/gaussiandreamer/.
English
In recent times, the generation of 3D assets from text prompts has shown
impressive results. Both 2D and 3D diffusion models can generate decent 3D
objects based on prompts. 3D diffusion models have good 3D consistency, but
their quality and generalization are limited as trainable 3D data is expensive
and hard to obtain. 2D diffusion models enjoy strong abilities of
generalization and fine generation, but the 3D consistency is hard to
guarantee. This paper attempts to bridge the power from the two types of
diffusion models via the recent explicit and efficient 3D Gaussian splatting
representation. A fast 3D generation framework, named as \name, is proposed,
where the 3D diffusion model provides point cloud priors for initialization and
the 2D diffusion model enriches the geometry and appearance. Operations of
noisy point growing and color perturbation are introduced to enhance the
initialized Gaussians. Our \name can generate a high-quality 3D instance within
25 minutes on one GPU, much faster than previous methods, while the generated
instances can be directly rendered in real time. Demos and code are available
at https://taoranyi.com/gaussiandreamer/.