GVGEN : Génération de texte vers 3D avec représentation volumétrique
GVGEN: Text-to-3D Generation with Volumetric Representation
March 19, 2024
Auteurs: Xianglong He, Junyi Chen, Sida Peng, Di Huang, Yangguang Li, Xiaoshui Huang, Chun Yuan, Wanli Ouyang, Tong He
cs.AI
Résumé
Ces dernières années, le splatting par Gaussiennes 3D s'est imposé comme une technique puissante pour la reconstruction et la génération 3D, reconnue pour ses capacités de rendu rapide et de haute qualité. Pour pallier ces lacunes, cet article présente un nouveau cadre basé sur la diffusion, GVGEN, conçu pour générer efficacement des représentations de Gaussiennes 3D à partir d'une entrée textuelle. Nous proposons deux techniques innovantes : (1) Représentation Volumétrique Structurée. Nous organisons d'abord les points de Gaussiennes 3D désordonnés sous une forme structurée appelée GaussianVolume. Cette transformation permet de capturer des détails de texture complexes au sein d'un volume composé d'un nombre fixe de Gaussiennes. Pour mieux optimiser la représentation de ces détails, nous proposons une méthode unique d'élagage et de densification nommée Stratégie de Pool de Candidats, améliorant la fidélité des détails grâce à une optimisation sélective. (2) Pipeline de Génération Grossière à Fine. Pour simplifier la génération de GaussianVolume et permettre au modèle de générer des instances avec une géométrie 3D détaillée, nous proposons un pipeline allant du grossier au fin. Il construit d'abord une structure géométrique de base, suivie de la prédiction des attributs complets des Gaussiennes. Notre cadre, GVGEN, démontre une performance supérieure dans les évaluations qualitatives et quantitatives par rapport aux méthodes existantes de génération 3D. Simultanément, il maintient une vitesse de génération rapide (environ 7 secondes), établissant efficacement un équilibre entre qualité et efficacité.
English
In recent years, 3D Gaussian splatting has emerged as a powerful technique
for 3D reconstruction and generation, known for its fast and high-quality
rendering capabilities. To address these shortcomings, this paper introduces a
novel diffusion-based framework, GVGEN, designed to efficiently generate 3D
Gaussian representations from text input. We propose two innovative
techniques:(1) Structured Volumetric Representation. We first arrange
disorganized 3D Gaussian points as a structured form GaussianVolume. This
transformation allows the capture of intricate texture details within a volume
composed of a fixed number of Gaussians. To better optimize the representation
of these details, we propose a unique pruning and densifying method named the
Candidate Pool Strategy, enhancing detail fidelity through selective
optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the
generation of GaussianVolume and empower the model to generate instances with
detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially
constructs a basic geometric structure, followed by the prediction of complete
Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in
qualitative and quantitative assessments compared to existing 3D generation
methods. Simultaneously, it maintains a fast generation speed (sim7
seconds), effectively striking a balance between quality and efficiency.Summary
AI-Generated Summary