기하학적 이미지 확산: 이미지 기반 표면 표현을 통한 빠르고 데이터 효율적인 텍스트-3D 변환
Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation
September 5, 2024
저자: Slava Elizarov, Ciara Rowles, Simon Donné
cs.AI
초록
텍스트 설명으로부터 고품질의 3D 객체를 생성하는 것은 계산 비용, 3D 데이터의 부족, 그리고 복잡한 3D 표현으로 인해 여전히 어려운 문제로 남아 있다. 본 연구에서는 2D 이미지를 사용하여 3D 형태를 효율적으로 표현함으로써 복잡한 3D 인식 아키텍처의 필요성을 피하는 새로운 Text-to-3D 모델인 Geometry Image Diffusion(GIMDiffusion)을 소개한다. 협업 제어(Collaborative Control) 메커니즘을 통합함으로써, Stable Diffusion과 같은 기존 Text-to-Image 모델의 풍부한 2D 사전 지식을 활용한다. 이를 통해 제한된 3D 학습 데이터(고품질 학습 데이터만 사용 가능)에서도 강력한 일반화가 가능하며, IPAdapter와 같은 가이던스 기술과의 호환성도 유지된다. 요약하면, GIMDiffusion은 현재의 Text-to-Image 모델과 비슷한 속도로 3D 자산을 생성할 수 있게 한다. 생성된 객체는 의미론적으로 의미 있는 분리된 부분들로 구성되며 내부 구조를 포함하여 사용성과 다양성을 모두 향상시킨다.
English
Generating high-quality 3D objects from textual descriptions remains a
challenging problem due to computational cost, the scarcity of 3D data, and
complex 3D representations. We introduce Geometry Image Diffusion
(GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to
efficiently represent 3D shapes using 2D images, thereby avoiding the need for
complex 3D-aware architectures. By integrating a Collaborative Control
mechanism, we exploit the rich 2D priors of existing Text-to-Image models such
as Stable Diffusion. This enables strong generalization even with limited 3D
training data (allowing us to use only high-quality training data) as well as
retaining compatibility with guidance techniques such as IPAdapter. In short,
GIMDiffusion enables the generation of 3D assets at speeds comparable to
current Text-to-Image models. The generated objects consist of semantically
meaningful, separate parts and include internal structures, enhancing both
usability and versatility.