GaussianDreamer: Geração Rápida de Texto para 3D com Gaussian Splatting Utilizando Priors de Nuvem de Pontos
GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors
October 12, 2023
Autores: Taoran Yi, Jiemin Fang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI
Resumo
Recentemente, a geração de ativos 3D a partir de prompts de texto tem apresentado resultados impressionantes. Tanto os modelos de difusão 2D quanto 3D são capazes de gerar objetos 3D de qualidade decente com base em prompts. Os modelos de difusão 3D possuem boa consistência tridimensional, mas sua qualidade e generalização são limitadas, já que dados 3D treináveis são caros e difíceis de obter. Os modelos de difusão 2D, por outro lado, possuem forte capacidade de generalização e geração refinada, mas a consistência 3D é difícil de garantir. Este artigo busca unir o poder desses dois tipos de modelos de difusão por meio da recente representação explícita e eficiente de splatting com Gaussianas 3D. Um framework rápido de geração 3D, denominado \name, é proposto, onde o modelo de difusão 3D fornece priors de nuvem de pontos para inicialização, e o modelo de difusão 2D enriquece a geometria e a aparência. Operações de crescimento de pontos ruidosos e perturbação de cor são introduzidas para aprimorar as Gaussianas inicializadas. Nosso \name é capaz de gerar uma instância 3D de alta qualidade em menos de 25 minutos em uma GPU, muito mais rápido que métodos anteriores, enquanto as instâncias geradas podem ser renderizadas diretamente em tempo real. Demonstrações e código estão disponíveis em https://taoranyi.com/gaussiandreamer/.
English
In recent times, the generation of 3D assets from text prompts has shown
impressive results. Both 2D and 3D diffusion models can generate decent 3D
objects based on prompts. 3D diffusion models have good 3D consistency, but
their quality and generalization are limited as trainable 3D data is expensive
and hard to obtain. 2D diffusion models enjoy strong abilities of
generalization and fine generation, but the 3D consistency is hard to
guarantee. This paper attempts to bridge the power from the two types of
diffusion models via the recent explicit and efficient 3D Gaussian splatting
representation. A fast 3D generation framework, named as \name, is proposed,
where the 3D diffusion model provides point cloud priors for initialization and
the 2D diffusion model enriches the geometry and appearance. Operations of
noisy point growing and color perturbation are introduced to enhance the
initialized Gaussians. Our \name can generate a high-quality 3D instance within
25 minutes on one GPU, much faster than previous methods, while the generated
instances can be directly rendered in real time. Demos and code are available
at https://taoranyi.com/gaussiandreamer/.