CLAY: Un Modello Generativo Controllabile su Larga Scala per la Creazione di Asset 3D di Alta Qualità
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
May 30, 2024
Autori: Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu
cs.AI
Abstract
Nel campo della creatività digitale, la nostra capacità di creare mondi 3D complessi partendo dall'immaginazione è spesso ostacolata dai limiti degli strumenti digitali esistenti, che richiedono competenze approfondite e sforzi considerevoli. Per ridurre questo divario, presentiamo CLAY, un generatore di geometrie e materiali 3D progettato per trasformare senza sforzo l'immaginazione umana in strutture digitali 3D intricate. CLAY supporta input classici come testo o immagini, nonché controlli 3D-aware derivati da diverse primitive (immagini multi-vista, voxel, bounding box, nuvole di punti, rappresentazioni implicite, ecc.). Al suo cuore si trova un modello generativo su larga scala composto da un Variational Autoencoder (VAE) multi-risoluzione e un minimalistico latent Diffusion Transformer (DiT), per estrarre prior 3D ricchi direttamente da una vasta gamma di geometrie 3D. Nello specifico, adotta campi neurali per rappresentare superfici continue e complete e utilizza un modulo generativo di geometria con blocchi di puro transformer nello spazio latente. Presentiamo uno schema di addestramento progressivo per allenare CLAY su un dataset ultra ampio di modelli 3D ottenuto attraverso una pipeline di elaborazione accuratamente progettata, risultando in un generatore di geometrie 3D nativo con 1,5 miliardi di parametri. Per la generazione dell'aspetto, CLAY si propone di produrre texture basate su rendering fisicamente realistico (PBR) impiegando un modello di diffusione di materiali multi-vista in grado di generare texture a risoluzione 2K con modalità diffuse, di ruvidità e metalliche. Dimostriamo l'uso di CLAY per una gamma di creazioni controllabili di asset 3D, da disegni concettuali abbozzati ad asset pronti per la produzione con dettagli intricati. Anche gli utenti alle prime armi possono facilmente utilizzare CLAY per dare vita alle loro vivide immaginazioni 3D, liberando una creatività illimitata.
English
In the realm of digital creativity, our potential to craft intricate 3D
worlds from imagination is often hampered by the limitations of existing
digital tools, which demand extensive expertise and efforts. To narrow this
disparity, we introduce CLAY, a 3D geometry and material generator designed to
effortlessly transform human imagination into intricate 3D digital structures.
CLAY supports classic text or image inputs as well as 3D-aware controls from
diverse primitives (multi-view images, voxels, bounding boxes, point clouds,
implicit representations, etc). At its core is a large-scale generative model
composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic
latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a
diverse range of 3D geometries. Specifically, it adopts neural fields to
represent continuous and complete surfaces and uses a geometry generative
module with pure transformer blocks in latent space. We present a progressive
training scheme to train CLAY on an ultra large 3D model dataset obtained
through a carefully designed processing pipeline, resulting in a 3D native
geometry generator with 1.5 billion parameters. For appearance generation, CLAY
sets out to produce physically-based rendering (PBR) textures by employing a
multi-view material diffusion model that can generate 2K resolution textures
with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for
a range of controllable 3D asset creations, from sketchy conceptual designs to
production ready assets with intricate details. Even first time users can
easily use CLAY to bring their vivid 3D imaginations to life, unleashing
unlimited creativity.