ChatPaper.aiChatPaper

GVGEN: Geração de Texto para 3D com Representação Volumétrica

GVGEN: Text-to-3D Generation with Volumetric Representation

March 19, 2024
Autores: Xianglong He, Junyi Chen, Sida Peng, Di Huang, Yangguang Li, Xiaoshui Huang, Chun Yuan, Wanli Ouyang, Tong He
cs.AI

Resumo

Nos últimos anos, o splatting com Gaussianas 3D emergiu como uma técnica poderosa para reconstrução e geração 3D, conhecida por suas capacidades rápidas e de alta qualidade de renderização. Para abordar essas limitações, este artigo introduz um novo framework baseado em difusão, o GVGEN, projetado para gerar eficientemente representações de Gaussianas 3D a partir de entradas de texto. Propomos duas técnicas inovadoras: (1) Representação Volumétrica Estruturada. Primeiro, organizamos pontos desordenados de Gaussianas 3D em uma forma estruturada chamada GaussianVolume. Essa transformação permite a captura de detalhes texturais intrincados dentro de um volume composto por um número fixo de Gaussianas. Para otimizar melhor a representação desses detalhes, propomos um método único de poda e densificação chamado Estratégia de Pool de Candidatos, que melhora a fidelidade dos detalhes por meio de otimização seletiva. (2) Pipeline de Geração do Grosso ao Fino. Para simplificar a geração do GaussianVolume e capacitar o modelo a gerar instâncias com geometria 3D detalhada, propomos um pipeline do grosso ao fino. Ele inicialmente constrói uma estrutura geométrica básica, seguida pela predição de atributos completos das Gaussianas. Nosso framework, GVGEN, demonstra desempenho superior em avaliações qualitativas e quantitativas em comparação com métodos existentes de geração 3D. Simultaneamente, mantém uma velocidade de geração rápida (∼7 segundos), equilibrando efetivamente qualidade e eficiência.
English
In recent years, 3D Gaussian splatting has emerged as a powerful technique for 3D reconstruction and generation, known for its fast and high-quality rendering capabilities. To address these shortcomings, this paper introduces a novel diffusion-based framework, GVGEN, designed to efficiently generate 3D Gaussian representations from text input. We propose two innovative techniques:(1) Structured Volumetric Representation. We first arrange disorganized 3D Gaussian points as a structured form GaussianVolume. This transformation allows the capture of intricate texture details within a volume composed of a fixed number of Gaussians. To better optimize the representation of these details, we propose a unique pruning and densifying method named the Candidate Pool Strategy, enhancing detail fidelity through selective optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the generation of GaussianVolume and empower the model to generate instances with detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially constructs a basic geometric structure, followed by the prediction of complete Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in qualitative and quantitative assessments compared to existing 3D generation methods. Simultaneously, it maintains a fast generation speed (sim7 seconds), effectively striking a balance between quality and efficiency.
PDF61February 9, 2026