GVGEN: Generazione da Testo a 3D con Rappresentazione Volumetrica

Abstract

Negli ultimi anni, lo splatting con Gaussiane 3D è emerso come una tecnica potente per la ricostruzione e la generazione 3D, nota per le sue capacità di rendering rapido e di alta qualità. Per affrontare queste limitazioni, questo articolo introduce un nuovo framework basato sulla diffusione, GVGEN, progettato per generare in modo efficiente rappresentazioni di Gaussiane 3D a partire da input testuali. Proponiamo due tecniche innovative: (1) Rappresentazione Volumetrica Strutturata. Inizialmente organizziamo punti di Gaussiane 3D disorganizzati in una forma strutturata chiamata GaussianVolume. Questa trasformazione consente di catturare dettagli intricati della texture all'interno di un volume composto da un numero fisso di Gaussiane. Per ottimizzare meglio la rappresentazione di questi dettagli, proponiamo un metodo unico di potatura e densificazione denominato Strategia del Pool di Candidati, che migliora la fedeltà dei dettagli attraverso un'ottimizzazione selettiva. (2) Pipeline di Generazione da Grossolana a Fine. Per semplificare la generazione di GaussianVolume e consentire al modello di generare istanze con geometria 3D dettagliata, proponiamo una pipeline da grossolana a fine. Questa inizialmente costruisce una struttura geometrica di base, seguita dalla previsione degli attributi completi delle Gaussiane. Il nostro framework, GVGEN, dimostra prestazioni superiori nelle valutazioni qualitative e quantitative rispetto ai metodi esistenti di generazione 3D. Allo stesso tempo, mantiene una velocità di generazione rapida (circa 7 secondi), bilanciando efficacemente qualità ed efficienza.

English

In recent years, 3D Gaussian splatting has emerged as a powerful technique for 3D reconstruction and generation, known for its fast and high-quality rendering capabilities. To address these shortcomings, this paper introduces a novel diffusion-based framework, GVGEN, designed to efficiently generate 3D Gaussian representations from text input. We propose two innovative techniques:(1) Structured Volumetric Representation. We first arrange disorganized 3D Gaussian points as a structured form GaussianVolume. This transformation allows the capture of intricate texture details within a volume composed of a fixed number of Gaussians. To better optimize the representation of these details, we propose a unique pruning and densifying method named the Candidate Pool Strategy, enhancing detail fidelity through selective optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the generation of GaussianVolume and empower the model to generate instances with detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially constructs a basic geometric structure, followed by the prediction of complete Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in qualitative and quantitative assessments compared to existing 3D generation methods. Simultaneously, it maintains a fast generation speed (sim7 seconds), effectively striking a balance between quality and efficiency.

GVGEN: Generazione da Testo a 3D con Rappresentazione Volumetrica

GVGEN: Text-to-3D Generation with Volumetric Representation

Abstract

Support