CLAY: Un Modello Generativo Controllabile su Larga Scala per la Creazione di Asset 3D di Alta Qualità

Abstract

Nel campo della creatività digitale, la nostra capacità di creare mondi 3D complessi partendo dall'immaginazione è spesso ostacolata dai limiti degli strumenti digitali esistenti, che richiedono competenze approfondite e sforzi considerevoli. Per ridurre questo divario, presentiamo CLAY, un generatore di geometrie e materiali 3D progettato per trasformare senza sforzo l'immaginazione umana in strutture digitali 3D intricate. CLAY supporta input classici come testo o immagini, nonché controlli 3D-aware derivati da diverse primitive (immagini multi-vista, voxel, bounding box, nuvole di punti, rappresentazioni implicite, ecc.). Al suo cuore si trova un modello generativo su larga scala composto da un Variational Autoencoder (VAE) multi-risoluzione e un minimalistico latent Diffusion Transformer (DiT), per estrarre prior 3D ricchi direttamente da una vasta gamma di geometrie 3D. Nello specifico, adotta campi neurali per rappresentare superfici continue e complete e utilizza un modulo generativo di geometria con blocchi di puro transformer nello spazio latente. Presentiamo uno schema di addestramento progressivo per allenare CLAY su un dataset ultra ampio di modelli 3D ottenuto attraverso una pipeline di elaborazione accuratamente progettata, risultando in un generatore di geometrie 3D nativo con 1,5 miliardi di parametri. Per la generazione dell'aspetto, CLAY si propone di produrre texture basate su rendering fisicamente realistico (PBR) impiegando un modello di diffusione di materiali multi-vista in grado di generare texture a risoluzione 2K con modalità diffuse, di ruvidità e metalliche. Dimostriamo l'uso di CLAY per una gamma di creazioni controllabili di asset 3D, da disegni concettuali abbozzati ad asset pronti per la produzione con dettagli intricati. Anche gli utenti alle prime armi possono facilmente utilizzare CLAY per dare vita alle loro vivide immaginazioni 3D, liberando una creatività illimitata.

English

In the realm of digital creativity, our potential to craft intricate 3D worlds from imagination is often hampered by the limitations of existing digital tools, which demand extensive expertise and efforts. To narrow this disparity, we introduce CLAY, a 3D geometry and material generator designed to effortlessly transform human imagination into intricate 3D digital structures. CLAY supports classic text or image inputs as well as 3D-aware controls from diverse primitives (multi-view images, voxels, bounding boxes, point clouds, implicit representations, etc). At its core is a large-scale generative model composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a diverse range of 3D geometries. Specifically, it adopts neural fields to represent continuous and complete surfaces and uses a geometry generative module with pure transformer blocks in latent space. We present a progressive training scheme to train CLAY on an ultra large 3D model dataset obtained through a carefully designed processing pipeline, resulting in a 3D native geometry generator with 1.5 billion parameters. For appearance generation, CLAY sets out to produce physically-based rendering (PBR) textures by employing a multi-view material diffusion model that can generate 2K resolution textures with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for a range of controllable 3D asset creations, from sketchy conceptual designs to production ready assets with intricate details. Even first time users can easily use CLAY to bring their vivid 3D imaginations to life, unleashing unlimited creativity.

CLAY: Un Modello Generativo Controllabile su Larga Scala per la Creazione di Asset 3D di Alta Qualità

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

Abstract

Support