ChatPaper.aiChatPaper

GaussianDreamer: Generazione Rapida da Testo a 3D Gaussian Splatting con Prior di Point Cloud

GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors

October 12, 2023
Autori: Taoran Yi, Jiemin Fang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI

Abstract

Negli ultimi tempi, la generazione di asset 3D a partire da prompt testuali ha mostrato risultati impressionanti. Sia i modelli di diffusione 2D che quelli 3D sono in grado di generare oggetti 3D di buona qualità basandosi su prompt. I modelli di diffusione 3D offrono una buona coerenza tridimensionale, ma la loro qualità e generalizzazione sono limitate poiché i dati 3D addestrabili sono costosi e difficili da ottenere. I modelli di diffusione 2D, d'altra parte, godono di una forte capacità di generalizzazione e generazione fine, ma è difficile garantire la coerenza 3D. Questo articolo cerca di unire i punti di forza dei due tipi di modelli di diffusione attraverso la recente rappresentazione esplicita ed efficiente dello splatting Gaussiano 3D. Viene proposto un framework veloce per la generazione 3D, denominato \name, in cui il modello di diffusione 3D fornisce priorità di point cloud per l'inizializzazione e il modello di diffusione 2D arricchisce la geometria e l'aspetto. Vengono introdotte operazioni di crescita rumorosa dei punti e perturbazione del colore per migliorare i Gaussiani inizializzati. Il nostro \name è in grado di generare un'istanza 3D di alta qualità entro 25 minuti su una singola GPU, molto più velocemente rispetto ai metodi precedenti, mentre le istanze generate possono essere renderizzate in tempo reale direttamente. Demo e codice sono disponibili all'indirizzo https://taoranyi.com/gaussiandreamer/.
English
In recent times, the generation of 3D assets from text prompts has shown impressive results. Both 2D and 3D diffusion models can generate decent 3D objects based on prompts. 3D diffusion models have good 3D consistency, but their quality and generalization are limited as trainable 3D data is expensive and hard to obtain. 2D diffusion models enjoy strong abilities of generalization and fine generation, but the 3D consistency is hard to guarantee. This paper attempts to bridge the power from the two types of diffusion models via the recent explicit and efficient 3D Gaussian splatting representation. A fast 3D generation framework, named as \name, is proposed, where the 3D diffusion model provides point cloud priors for initialization and the 2D diffusion model enriches the geometry and appearance. Operations of noisy point growing and color perturbation are introduced to enhance the initialized Gaussians. Our \name can generate a high-quality 3D instance within 25 minutes on one GPU, much faster than previous methods, while the generated instances can be directly rendered in real time. Demos and code are available at https://taoranyi.com/gaussiandreamer/.
PDF182April 17, 2026