GaussianDreamer: Schnelle Erzeugung von Text zu 3D-Gaussian-Splatting mit Punktwolken-Priors
GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors
October 12, 2023
Autoren: Taoran Yi, Jiemin Fang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang
cs.AI
Zusammenfassung
In jüngster Zeit hat die Erzeugung von 3D-Assets aus Textprompts beeindruckende Ergebnisse gezeigt. Sowohl 2D- als auch 3D-Diffusionsmodelle können anständige 3D-Objekte basierend auf Prompts generieren. 3D-Diffusionsmodelle weisen eine gute 3D-Konsistenz auf, aber ihre Qualität und Generalisierungsfähigkeit sind begrenzt, da trainierbare 3D-Daten teuer und schwer zu beschaffen sind. 2D-Diffusionsmodelle verfügen über starke Fähigkeiten in Bezug auf Generalisierung und feine Erzeugung, aber die 3D-Konsistenz ist schwer zu gewährleisten. Dieser Artikel versucht, die Stärken der beiden Arten von Diffusionsmodellen durch die neuartige explizite und effiziente 3D-Gaußsche Splatting-Darstellung zu verbinden. Ein schnelles 3D-Generierungsframework, genannt \name, wird vorgeschlagen, bei dem das 3D-Diffusionsmodell Punktwolken-Priors für die Initialisierung liefert und das 2D-Diffusionsmodell die Geometrie und das Aussehen bereichert. Operationen des verrauschten Punktwachstums und der Farbstörung werden eingeführt, um die initialisierten Gaußschen zu verbessern. Unser \name kann eine hochwertige 3D-Instanz innerhalb von 25 Minuten auf einer GPU erzeugen, was deutlich schneller ist als bisherige Methoden, während die generierten Instanzen direkt in Echtzeit gerendert werden können. Demos und Code sind verfügbar unter https://taoranyi.com/gaussiandreamer/.
English
In recent times, the generation of 3D assets from text prompts has shown
impressive results. Both 2D and 3D diffusion models can generate decent 3D
objects based on prompts. 3D diffusion models have good 3D consistency, but
their quality and generalization are limited as trainable 3D data is expensive
and hard to obtain. 2D diffusion models enjoy strong abilities of
generalization and fine generation, but the 3D consistency is hard to
guarantee. This paper attempts to bridge the power from the two types of
diffusion models via the recent explicit and efficient 3D Gaussian splatting
representation. A fast 3D generation framework, named as \name, is proposed,
where the 3D diffusion model provides point cloud priors for initialization and
the 2D diffusion model enriches the geometry and appearance. Operations of
noisy point growing and color perturbation are introduced to enhance the
initialized Gaussians. Our \name can generate a high-quality 3D instance within
25 minutes on one GPU, much faster than previous methods, while the generated
instances can be directly rendered in real time. Demos and code are available
at https://taoranyi.com/gaussiandreamer/.