CLAY: 고품질 3D 자산 생성을 위한 제어 가능한 대규모 생성 모델
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
May 30, 2024
저자: Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu
cs.AI
초록
디지털 창작의 영역에서, 우리가 상상 속의 복잡한 3D 세계를 구축하려는 잠재력은 종종 기존 디지털 도구의 한계로 인해 제약을 받습니다. 이러한 도구들은 광범위한 전문 지식과 노력을 요구하기 때문입니다. 이러한 격차를 줄이기 위해, 우리는 인간의 상상력을 복잡한 3D 디지털 구조물로 손쉽게 변환하도록 설계된 3D 기하학 및 재질 생성기인 CLAY를 소개합니다. CLAY는 전통적인 텍스트나 이미지 입력뿐만 아니라 다양한 기본 요소(다중 뷰 이미지, 복셀, 바운딩 박스, 포인트 클라우드, 암시적 표현 등)로부터의 3D 인식 컨트롤을 지원합니다. 그 핵심에는 다양한 3D 기하학에서 직접 풍부한 3D 사전 정보를 추출하기 위해 다중 해상도 변이형 오토인코더(VAE)와 최소한의 잠재 디퓨전 트랜스포머(DiT)로 구성된 대규모 생성 모델이 있습니다. 구체적으로, CLAY는 연속적이고 완전한 표면을 표현하기 위해 신경 필드를 채택하고, 잠재 공간에서 순수 트랜스포머 블록으로 구성된 기하학 생성 모듈을 사용합니다. 우리는 신중하게 설계된 처리 파이프라인을 통해 얻은 초대형 3D 모델 데이터셋에서 CLAY를 훈련시키기 위한 점진적인 훈련 방식을 제시하며, 이는 15억 개의 매개변수를 가진 3D 네이티브 기하학 생성기를 만들어냅니다. 외관 생성의 경우, CLAY는 물리 기반 렌더링(PBR) 텍스처를 생성하기 위해 다중 뷰 재질 디퓨전 모델을 사용하며, 이 모델은 확산, 거칠기, 금속성 모달리티를 포함한 2K 해상도의 텍스처를 생성할 수 있습니다. 우리는 스케치 같은 개념적 디자인부터 정교한 디테일을 가진 프로덕션 준비 자산에 이르기까지 다양한 제어 가능한 3D 자산 생성에 CLAY를 사용하는 것을 보여줍니다. 처음 사용하는 사용자조차도 CLAY를 쉽게 사용하여 생생한 3D 상상력을 현실로 만들어내며 무한한 창의력을 발휘할 수 있습니다.
English
In the realm of digital creativity, our potential to craft intricate 3D
worlds from imagination is often hampered by the limitations of existing
digital tools, which demand extensive expertise and efforts. To narrow this
disparity, we introduce CLAY, a 3D geometry and material generator designed to
effortlessly transform human imagination into intricate 3D digital structures.
CLAY supports classic text or image inputs as well as 3D-aware controls from
diverse primitives (multi-view images, voxels, bounding boxes, point clouds,
implicit representations, etc). At its core is a large-scale generative model
composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic
latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a
diverse range of 3D geometries. Specifically, it adopts neural fields to
represent continuous and complete surfaces and uses a geometry generative
module with pure transformer blocks in latent space. We present a progressive
training scheme to train CLAY on an ultra large 3D model dataset obtained
through a carefully designed processing pipeline, resulting in a 3D native
geometry generator with 1.5 billion parameters. For appearance generation, CLAY
sets out to produce physically-based rendering (PBR) textures by employing a
multi-view material diffusion model that can generate 2K resolution textures
with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for
a range of controllable 3D asset creations, from sketchy conceptual designs to
production ready assets with intricate details. Even first time users can
easily use CLAY to bring their vivid 3D imaginations to life, unleashing
unlimited creativity.Summary
AI-Generated Summary