GVGEN: 볼륨 기반 표현을 활용한 텍스트-3D 생성
GVGEN: Text-to-3D Generation with Volumetric Representation
March 19, 2024
저자: Xianglong He, Junyi Chen, Sida Peng, Di Huang, Yangguang Li, Xiaoshui Huang, Chun Yuan, Wanli Ouyang, Tong He
cs.AI
초록
최근 몇 년 동안 3D 가우시안 스플래팅(3D Gaussian splatting)은 빠르고 고품질의 렌더링 능력으로 인해 3D 재구성 및 생성 분야에서 강력한 기술로 부상했습니다. 이러한 단점을 해결하기 위해, 본 논문은 텍스트 입력으로부터 3D 가우시안 표현을 효율적으로 생성하기 위한 새로운 확산 기반 프레임워크인 GVGEN을 소개합니다. 우리는 두 가지 혁신적인 기술을 제안합니다: (1) 구조화된 볼륨 표현. 먼저, 무질서한 3D 가우시안 점들을 구조화된 형태인 GaussianVolume으로 배열합니다. 이 변환은 고정된 수의 가우시안으로 구성된 볼륨 내에서 복잡한 텍스처 세부 사항을 포착할 수 있게 합니다. 이러한 세부 사항의 표현을 더욱 최적화하기 위해, 우리는 후보 풀 전략(Candidate Pool Strategy)이라는 독특한 가지치기 및 밀도 조절 방법을 제안하여 선택적 최적화를 통해 세부 충실도를 향상시킵니다. (2) 코스-투-파인 생성 파이프라인. GaussianVolume의 생성을 단순화하고 모델이 세부적인 3D 기하학을 가진 인스턴스를 생성할 수 있도록 하기 위해, 우리는 코스-투-파인 파이프라인을 제안합니다. 이 파이프라인은 기본적인 기하학적 구조를 먼저 구축한 후, 완전한 가우시안 속성을 예측합니다. 우리의 프레임워크인 GVGEN은 기존의 3D 생성 방법들과 비교하여 정성적 및 정량적 평가에서 우수한 성능을 보여줍니다. 동시에, 빠른 생성 속도(약 7초)를 유지하며 품질과 효율성 사이의 균형을 효과적으로 달성합니다.
English
In recent years, 3D Gaussian splatting has emerged as a powerful technique
for 3D reconstruction and generation, known for its fast and high-quality
rendering capabilities. To address these shortcomings, this paper introduces a
novel diffusion-based framework, GVGEN, designed to efficiently generate 3D
Gaussian representations from text input. We propose two innovative
techniques:(1) Structured Volumetric Representation. We first arrange
disorganized 3D Gaussian points as a structured form GaussianVolume. This
transformation allows the capture of intricate texture details within a volume
composed of a fixed number of Gaussians. To better optimize the representation
of these details, we propose a unique pruning and densifying method named the
Candidate Pool Strategy, enhancing detail fidelity through selective
optimization. (2) Coarse-to-fine Generation Pipeline. To simplify the
generation of GaussianVolume and empower the model to generate instances with
detailed 3D geometry, we propose a coarse-to-fine pipeline. It initially
constructs a basic geometric structure, followed by the prediction of complete
Gaussian attributes. Our framework, GVGEN, demonstrates superior performance in
qualitative and quantitative assessments compared to existing 3D generation
methods. Simultaneously, it maintains a fast generation speed (sim7
seconds), effectively striking a balance between quality and efficiency.Summary
AI-Generated Summary