GVGEN: Generazione da Testo a 3D con Rappresentazione Volumetrica
GVGEN: Text-to-3D Generation with Volumetric Representation
March 19, 2024
Autori: Xianglong He, Junyi Chen, Sida Peng, Di Huang, Yangguang Li, Xiaoshui Huang, Chun Yuan, Wanli Ouyang, Tong He
cs.AI
Abstract
Negli ultimi anni, lo splatting con Gaussiane 3D è emerso come una tecnica potente per la ricostruzione e la generazione 3D, nota per le sue capacità di rendering rapido e di alta qualità. Per affrontare queste limitazioni, questo articolo introduce un nuovo framework basato sulla diffusione, GVGEN, progettato per generare in modo efficiente rappresentazioni di Gaussiane 3D a partire da input testuali. Proponiamo due tecniche innovative: (1) Rappresentazione Volumetrica Strutturata. Inizialmente organizziamo punti di Gaussiane 3D disorganizzati in una forma strutturata chiamata GaussianVolume. Questa trasformazione consente di catturare dettagli intricati della texture all'interno di un volume composto da un numero fisso di Gaussiane. Per ottimizzare meglio la rappresentazione di questi dettagli, proponiamo un metodo unico di potatura e densificazione denominato Strategia del Pool di Candidati, che migliora la fedeltà dei dettagli attraverso un'ottimizzazione selettiva. (2) Pipeline di Generazione da Grossolana a Fine. Per semplificare la generazione di GaussianVolume e consentire al modello di generare istanze con geometria 3D dettagliata, proponiamo una pipeline da grossolana a fine. Questa inizialmente costruisce una struttura geometrica di base, seguita dalla previsione degli attributi completi delle Gaussiane. Il nostro framework, GVGEN, dimostra prestazioni superiori nelle valutazioni qualitative e quantitative rispetto ai metodi esistenti di generazione 3D. Allo stesso tempo, mantiene una velocità di generazione rapida (circa 7 secondi), bilanciando efficacemente qualità ed efficienza.
English
In recent years, 3D Gaussian splatting has emerged as a powerful technique
for 3D reconstruction and generation, known for its fast and high-quality
rendering capabilities. To address these shortcomings, this paper introduces a
novel diffusion-based framework, GVGEN, designed to efficiently generate 3D
Gaussian representations from text input. We propose two innovative
techniques:(1) Structured Volumetric Representation. We first arrange
disorganized 3D Gaussian points as a structured form GaussianVolume. This
transformation allows the capture of intricate texture details within a volume
composed of a fixed number of Gaussians. To better optimize the representation
of these details, we propose a unique pruning and densifying method named the
Candidate Pool Strategy, enhancing detail fidelity through selective
optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the
generation of GaussianVolume and empower the model to generate instances with
detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially
constructs a basic geometric structure, followed by the prediction of complete
Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in
qualitative and quantitative assessments compared to existing 3D generation
methods. Simultaneously, it maintains a fast generation speed (sim7
seconds), effectively striking a balance between quality and efficiency.