GVGEN: Generación de Texto a 3D con Representación Volumétrica
GVGEN: Text-to-3D Generation with Volumetric Representation
March 19, 2024
Autores: Xianglong He, Junyi Chen, Sida Peng, Di Huang, Yangguang Li, Xiaoshui Huang, Chun Yuan, Wanli Ouyang, Tong He
cs.AI
Resumen
En los últimos años, el splatting de Gaussianas 3D ha surgido como una técnica poderosa para la reconstrucción y generación 3D, reconocida por sus capacidades de renderizado rápido y de alta calidad. Para abordar estas limitaciones, este artículo introduce un marco novedoso basado en difusión, GVGEN, diseñado para generar eficientemente representaciones de Gaussianas 3D a partir de entradas de texto. Proponemos dos técnicas innovadoras: (1) Representación Volumétrica Estructurada. Primero organizamos puntos desordenados de Gaussianas 3D en una forma estructurada llamada GaussianVolume. Esta transformación permite capturar detalles intrincados de textura dentro de un volumen compuesto por un número fijo de Gaussianas. Para optimizar mejor la representación de estos detalles, proponemos un método único de poda y densificación denominado Estrategia de Piscina de Candidatos, que mejora la fidelidad de los detalles mediante optimización selectiva. (2) Pipeline de Generación de Coarse-to-fine. Para simplificar la generación de GaussianVolume y permitir que el modelo genere instancias con geometría 3D detallada, proponemos un pipeline de coarse-to-fine. Inicialmente construye una estructura geométrica básica, seguida de la predicción de atributos completos de Gaussianas. Nuestro marco, GVGEN, demuestra un rendimiento superior en evaluaciones cualitativas y cuantitativas en comparación con los métodos existentes de generación 3D. Simultáneamente, mantiene una velocidad de generación rápida (∼7 segundos), logrando un equilibrio efectivo entre calidad y eficiencia.
English
In recent years, 3D Gaussian splatting has emerged as a powerful technique
for 3D reconstruction and generation, known for its fast and high-quality
rendering capabilities. To address these shortcomings, this paper introduces a
novel diffusion-based framework, GVGEN, designed to efficiently generate 3D
Gaussian representations from text input. We propose two innovative
techniques:(1) Structured Volumetric Representation. We first arrange
disorganized 3D Gaussian points as a structured form GaussianVolume. This
transformation allows the capture of intricate texture details within a volume
composed of a fixed number of Gaussians. To better optimize the representation
of these details, we propose a unique pruning and densifying method named the
Candidate Pool Strategy, enhancing detail fidelity through selective
optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the
generation of GaussianVolume and empower the model to generate instances with
detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially
constructs a basic geometric structure, followed by the prediction of complete
Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in
qualitative and quantitative assessments compared to existing 3D generation
methods. Simultaneously, it maintains a fast generation speed (sim7
seconds), effectively striking a balance between quality and efficiency.Summary
AI-Generated Summary