GVGEN: Generación de Texto a 3D con Representación Volumétrica

Resumen

En los últimos años, el splatting de Gaussianas 3D ha surgido como una técnica poderosa para la reconstrucción y generación 3D, reconocida por sus capacidades de renderizado rápido y de alta calidad. Para abordar estas limitaciones, este artículo introduce un marco novedoso basado en difusión, GVGEN, diseñado para generar eficientemente representaciones de Gaussianas 3D a partir de entradas de texto. Proponemos dos técnicas innovadoras: (1) Representación Volumétrica Estructurada. Primero organizamos puntos desordenados de Gaussianas 3D en una forma estructurada llamada GaussianVolume. Esta transformación permite capturar detalles intrincados de textura dentro de un volumen compuesto por un número fijo de Gaussianas. Para optimizar mejor la representación de estos detalles, proponemos un método único de poda y densificación denominado Estrategia de Piscina de Candidatos, que mejora la fidelidad de los detalles mediante optimización selectiva. (2) Pipeline de Generación de Coarse-to-fine. Para simplificar la generación de GaussianVolume y permitir que el modelo genere instancias con geometría 3D detallada, proponemos un pipeline de coarse-to-fine. Inicialmente construye una estructura geométrica básica, seguida de la predicción de atributos completos de Gaussianas. Nuestro marco, GVGEN, demuestra un rendimiento superior en evaluaciones cualitativas y cuantitativas en comparación con los métodos existentes de generación 3D. Simultáneamente, mantiene una velocidad de generación rápida (∼7 segundos), logrando un equilibrio efectivo entre calidad y eficiencia.

English

In recent years, 3D Gaussian splatting has emerged as a powerful technique for 3D reconstruction and generation, known for its fast and high-quality rendering capabilities. To address these shortcomings, this paper introduces a novel diffusion-based framework, GVGEN, designed to efficiently generate 3D Gaussian representations from text input. We propose two innovative techniques:(1) Structured Volumetric Representation. We first arrange disorganized 3D Gaussian points as a structured form GaussianVolume. This transformation allows the capture of intricate texture details within a volume composed of a fixed number of Gaussians. To better optimize the representation of these details, we propose a unique pruning and densifying method named the Candidate Pool Strategy, enhancing detail fidelity through selective optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the generation of GaussianVolume and empower the model to generate instances with detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially constructs a basic geometric structure, followed by the prediction of complete Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in qualitative and quantitative assessments compared to existing 3D generation methods. Simultaneously, it maintains a fast generation speed (sim7 seconds), effectively striking a balance between quality and efficiency.

GVGEN: Generación de Texto a 3D con Representación Volumétrica

GVGEN: Text-to-3D Generation with Volumetric Representation

Resumen

Support