ChatPaper.aiChatPaper

GVGEN: Text-zu-3D-Generierung mit volumetrischer Darstellung

GVGEN: Text-to-3D Generation with Volumetric Representation

March 19, 2024
Autoren: Xianglong He, Junyi Chen, Sida Peng, Di Huang, Yangguang Li, Xiaoshui Huang, Chun Yuan, Wanli Ouyang, Tong He
cs.AI

Zusammenfassung

In den letzten Jahren hat sich das 3D-Gaußsche Splatting als leistungsstarke Technik für die 3D-Rekonstruktion und -Generierung etabliert, bekannt für seine schnellen und qualitativ hochwertigen Rendering-Fähigkeiten. Um diese Mängel anzugehen, stellt dieser Artikel ein neuartiges, auf Diffusion basierendes Framework, GVGEN, vor, das darauf ausgelegt ist, 3D-Gaußsche Darstellungen effizient aus Texteingaben zu generieren. Wir schlagen zwei innovative Techniken vor: (1) Strukturierte Volumetrische Darstellung. Wir ordnen zunächst ungeordnete 3D-Gaußsche Punkte als strukturierte Form GaussianVolume an. Diese Transformation ermöglicht die Erfassung von komplexen Texturdetails innerhalb eines Volumens, das aus einer festen Anzahl von Gaußschen besteht. Um die Darstellung dieser Details besser zu optimieren, schlagen wir eine einzigartige Beschneidungs- und Verdichtungsmethode namens Candidate Pool Strategy vor, die die Detailtreue durch selektive Optimierung verbessert. (2) Grob-zu-fein Generierungspipeline. Um die Generierung von GaussianVolume zu vereinfachen und dem Modell zu ermöglichen, Instanzen mit detaillierter 3D-Geometrie zu generieren, schlagen wir eine grob-zu-fein Pipeline vor. Sie konstruiert zunächst eine grundlegende geometrische Struktur, gefolgt von der Vorhersage vollständiger Gaußscher Attribute. Unser Framework, GVGEN, zeigt eine überlegene Leistung in qualitativen und quantitativen Bewertungen im Vergleich zu bestehenden 3D-Generierungsmethoden. Gleichzeitig behält es eine schnelle Generierungsgeschwindigkeit (ca. 7 Sekunden) bei und schafft effektiv einen Ausgleich zwischen Qualität und Effizienz.
English
In recent years, 3D Gaussian splatting has emerged as a powerful technique for 3D reconstruction and generation, known for its fast and high-quality rendering capabilities. To address these shortcomings, this paper introduces a novel diffusion-based framework, GVGEN, designed to efficiently generate 3D Gaussian representations from text input. We propose two innovative techniques:(1) Structured Volumetric Representation. We first arrange disorganized 3D Gaussian points as a structured form GaussianVolume. This transformation allows the capture of intricate texture details within a volume composed of a fixed number of Gaussians. To better optimize the representation of these details, we propose a unique pruning and densifying method named the Candidate Pool Strategy, enhancing detail fidelity through selective optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the generation of GaussianVolume and empower the model to generate instances with detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially constructs a basic geometric structure, followed by the prediction of complete Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in qualitative and quantitative assessments compared to existing 3D generation methods. Simultaneously, it maintains a fast generation speed (sim7 seconds), effectively striking a balance between quality and efficiency.

Summary

AI-Generated Summary

PDF61December 15, 2024