CLAY: Um Modelo Generativo em Grande Escala Controlável para Criar Ativos 3D de Alta Qualidade
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
May 30, 2024
Autores: Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu
cs.AI
Resumo
No campo da criatividade digital, nosso potencial para criar mundos 3D intricados a partir da imaginação é frequentemente prejudicado pelas limitações das ferramentas digitais existentes, que exigem expertise e esforços extensos. Para reduzir essa disparidade, apresentamos o CLAY, um gerador de geometria e materiais 3D projetado para transformar sem esforço a imaginação humana em estruturas digitais 3D intricadas. O CLAY suporta entradas de texto ou imagem clássicas, bem como controles 3D conscientes de diversas primitivas (imagens de múltiplas vistas, voxels, caixas delimitadoras, nuvens de pontos, representações implícitas, etc). Em seu núcleo, há um modelo generativo em larga escala composto por um Variational Autoencoder (VAE) de múltiplas resoluções e um Transformer de Difusão latente (DiT) minimalista, para extrair priors 3D ricos diretamente de uma ampla gama de geometrias 3D. Especificamente, ele adota campos neurais para representar superfícies contínuas e completas e utiliza um módulo generativo de geometria com blocos puramente transformadores no espaço latente. Apresentamos um esquema de treinamento progressivo para treinar o CLAY em um conjunto de dados de modelos 3D ultra grande obtido por meio de um pipeline de processamento cuidadosamente projetado, resultando em um gerador de geometria nativa 3D com 1,5 bilhão de parâmetros. Para geração de aparência, o CLAY se propõe a produzir texturas de renderização baseadas em física (PBR) empregando um modelo de difusão de material de múltiplas vistas que pode gerar texturas de resolução 2K com modalidades difusa, de aspereza e metálica. Demonstramos o uso do CLAY para uma variedade de criações de ativos 3D controláveis, desde designs conceituais esboçados até ativos prontos para produção com detalhes intricados. Mesmo usuários iniciantes podem facilmente usar o CLAY para dar vida às suas vívidas imaginações 3D, liberando a criatividade ilimitada.
English
In the realm of digital creativity, our potential to craft intricate 3D
worlds from imagination is often hampered by the limitations of existing
digital tools, which demand extensive expertise and efforts. To narrow this
disparity, we introduce CLAY, a 3D geometry and material generator designed to
effortlessly transform human imagination into intricate 3D digital structures.
CLAY supports classic text or image inputs as well as 3D-aware controls from
diverse primitives (multi-view images, voxels, bounding boxes, point clouds,
implicit representations, etc). At its core is a large-scale generative model
composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic
latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a
diverse range of 3D geometries. Specifically, it adopts neural fields to
represent continuous and complete surfaces and uses a geometry generative
module with pure transformer blocks in latent space. We present a progressive
training scheme to train CLAY on an ultra large 3D model dataset obtained
through a carefully designed processing pipeline, resulting in a 3D native
geometry generator with 1.5 billion parameters. For appearance generation, CLAY
sets out to produce physically-based rendering (PBR) textures by employing a
multi-view material diffusion model that can generate 2K resolution textures
with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for
a range of controllable 3D asset creations, from sketchy conceptual designs to
production ready assets with intricate details. Even first time users can
easily use CLAY to bring their vivid 3D imaginations to life, unleashing
unlimited creativity.