GVGEN: Tekst-naar-3D-generatie met volumetrische representatie
GVGEN: Text-to-3D Generation with Volumetric Representation
March 19, 2024
Auteurs: Xianglong He, Junyi Chen, Sida Peng, Di Huang, Yangguang Li, Xiaoshui Huang, Chun Yuan, Wanli Ouyang, Tong He
cs.AI
Samenvatting
De afgelopen jaren is 3D Gaussian splatting naar voren gekomen als een krachtige techniek voor 3D-reconstructie en -generatie, bekend om zijn snelle en hoogwaardige weergavecapaciteiten. Om deze tekortkomingen aan te pakken, introduceert dit artikel een nieuw diffuusiegebaseerd framework, GVGEN, ontworpen om efficiënt 3D Gaussian-representaties te genereren vanuit tekstinput. We stellen twee innovatieve technieken voor: (1) Gestructureerde Volumetrische Representatie. We ordenen eerst ongeordende 3D Gaussian-punten als een gestructureerde vorm, GaussianVolume. Deze transformatie maakt het mogelijk om ingewikkelde textuurdetails vast te leggen binnen een volume dat bestaat uit een vast aantal Gaussians. Om de representatie van deze details beter te optimaliseren, stellen we een unieke snoei- en verdichtingsmethode voor, genaamd de Candidate Pool Strategy, die de detailgetrouwheid verbetert door selectieve optimalisatie. (2) Coarse-to-fine Generatiepijplijn. Om de generatie van GaussianVolume te vereenvoudigen en het model in staat te stellen instanties met gedetailleerde 3D-geometrie te genereren, stellen we een coarse-to-fine pijplijn voor. Deze construeert eerst een basisgeometrische structuur, gevolgd door de voorspelling van volledige Gaussian-attributen. Ons framework, GVGEN, toont superieure prestaties in kwalitatieve en kwantitatieve evaluaties in vergelijking met bestaande 3D-generatiemethoden. Tegelijkertijd behoudt het een snelle generatiesnelheid (ongeveer 7 seconden), waardoor effectief een balans wordt gevonden tussen kwaliteit en efficiëntie.
English
In recent years, 3D Gaussian splatting has emerged as a powerful technique
for 3D reconstruction and generation, known for its fast and high-quality
rendering capabilities. To address these shortcomings, this paper introduces a
novel diffusion-based framework, GVGEN, designed to efficiently generate 3D
Gaussian representations from text input. We propose two innovative
techniques:(1) Structured Volumetric Representation. We first arrange
disorganized 3D Gaussian points as a structured form GaussianVolume. This
transformation allows the capture of intricate texture details within a volume
composed of a fixed number of Gaussians. To better optimize the representation
of these details, we propose a unique pruning and densifying method named the
Candidate Pool Strategy, enhancing detail fidelity through selective
optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the
generation of GaussianVolume and empower the model to generate instances with
detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially
constructs a basic geometric structure, followed by the prediction of complete
Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in
qualitative and quantitative assessments compared to existing 3D generation
methods. Simultaneously, it maintains a fast generation speed (sim7
seconds), effectively striking a balance between quality and efficiency.