Compress3D: 단일 이미지 기반 3D 생성을 위한 압축 잠재 공간
Compress3D: a Compressed Latent Space for 3D Generation from a Single Image
March 20, 2024
저자: Bowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao
cs.AI
초록
3D 생성 분야는 상당한 발전을 이루었지만, 단일 이미지로부터 고품질의 3D 자산을 효율적으로 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 본 논문에서는 3D 모델을 컴팩트한 트라이플레인(triplane) 잠재 공간으로 인코딩하여 3D 기하학적 구조와 텍스처 정보를 효과적으로 압축하는 트라이플레인 오토인코더를 제안합니다. 오토인코더 프레임워크 내에서, 저해상도 잠재 표현을 사용하여 고해상도 3D 특징 볼륨으로부터 특징을 쿼리하는 3D 인식 교차 주의 메커니즘을 도입함으로써 잠재 공간의 표현 능력을 향상시켰습니다. 이후, 이렇게 개선된 잠재 공간에서 확산 모델을 학습시킵니다. 단순히 이미지 임베딩에만 의존하여 3D를 생성하는 기존 방식과 달리, 우리가 제안한 방법은 이미지 임베딩과 형태 임베딩을 동시에 조건으로 활용할 것을 주장합니다. 구체적으로, 형태 임베딩은 이미지 임베딩을 조건으로 하는 확산 사전 모델을 통해 추정됩니다. 포괄적인 실험을 통해, 우리의 방법이 최신 알고리즘들을 능가하며 더 적은 학습 데이터와 시간으로도 우수한 성능을 달성함을 입증했습니다. 우리의 접근 방식은 단일 A100 GPU에서 단 7초 만에 고품질의 3D 자산을 생성할 수 있게 합니다.
English
3D generation has witnessed significant advancements, yet efficiently
producing high-quality 3D assets from a single image remains challenging. In
this paper, we present a triplane autoencoder, which encodes 3D models into a
compact triplane latent space to effectively compress both the 3D geometry and
texture information. Within the autoencoder framework, we introduce a 3D-aware
cross-attention mechanism, which utilizes low-resolution latent representations
to query features from a high-resolution 3D feature volume, thereby enhancing
the representation capacity of the latent space. Subsequently, we train a
diffusion model on this refined latent space. In contrast to solely relying on
image embedding for 3D generation, our proposed method advocates for the
simultaneous utilization of both image embedding and shape embedding as
conditions. Specifically, the shape embedding is estimated via a diffusion
prior model conditioned on the image embedding. Through comprehensive
experiments, we demonstrate that our method outperforms state-of-the-art
algorithms, achieving superior performance while requiring less training data
and time. Our approach enables the generation of high-quality 3D assets in
merely 7 seconds on a single A100 GPU.Summary
AI-Generated Summary