CLAY : Un modèle génératif à grande échelle et contrôlable pour la création d'actifs 3D de haute qualité
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
May 30, 2024
Auteurs: Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu
cs.AI
Résumé
Dans le domaine de la créativité numérique, notre capacité à concevoir des mondes 3D complexes à partir de l'imagination est souvent entravée par les limites des outils numériques existants, qui exigent une expertise et des efforts considérables. Pour réduire cet écart, nous présentons CLAY, un générateur de géométrie et de matériaux 3D conçu pour transformer sans effort l'imagination humaine en structures numériques 3D complexes. CLAY prend en charge des entrées classiques sous forme de texte ou d'images, ainsi que des contrôles 3D à partir de diverses primitives (images multi-vues, voxels, boîtes englobantes, nuages de points, représentations implicites, etc.). Au cœur de ce système se trouve un modèle génératif à grande échelle composé d'un autoencodeur variationnel (VAE) multi-résolution et d'un transformateur de diffusion latent minimaliste (DiT), permettant d'extraire des connaissances 3D riches directement à partir d'une variété de géométries 3D. Plus précisément, il adopte des champs neuronaux pour représenter des surfaces continues et complètes, et utilise un module génératif de géométrie basé sur des blocs de transformateurs purs dans l'espace latent. Nous présentons un schéma d'entraînement progressif pour former CLAY sur un ensemble de données de modèles 3D ultra-large obtenu grâce à un pipeline de traitement soigneusement conçu, aboutissant à un générateur de géométrie 3D natif doté de 1,5 milliard de paramètres. Pour la génération d'apparence, CLAY vise à produire des textures de rendu physiquement réalistes (PBR) en employant un modèle de diffusion de matériaux multi-vues capable de générer des textures en résolution 2K avec des modalités de diffusion, de rugosité et de métal. Nous démontrons l'utilisation de CLAY pour une gamme de créations d'actifs 3D contrôlables, allant de conceptions conceptuelles esquissées à des actifs prêts pour la production avec des détails complexes. Même les utilisateurs novices peuvent facilement utiliser CLAY pour donner vie à leurs imaginations 3D vives, libérant ainsi une créativité illimitée.
English
In the realm of digital creativity, our potential to craft intricate 3D
worlds from imagination is often hampered by the limitations of existing
digital tools, which demand extensive expertise and efforts. To narrow this
disparity, we introduce CLAY, a 3D geometry and material generator designed to
effortlessly transform human imagination into intricate 3D digital structures.
CLAY supports classic text or image inputs as well as 3D-aware controls from
diverse primitives (multi-view images, voxels, bounding boxes, point clouds,
implicit representations, etc). At its core is a large-scale generative model
composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic
latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a
diverse range of 3D geometries. Specifically, it adopts neural fields to
represent continuous and complete surfaces and uses a geometry generative
module with pure transformer blocks in latent space. We present a progressive
training scheme to train CLAY on an ultra large 3D model dataset obtained
through a carefully designed processing pipeline, resulting in a 3D native
geometry generator with 1.5 billion parameters. For appearance generation, CLAY
sets out to produce physically-based rendering (PBR) textures by employing a
multi-view material diffusion model that can generate 2K resolution textures
with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for
a range of controllable 3D asset creations, from sketchy conceptual designs to
production ready assets with intricate details. Even first time users can
easily use CLAY to bring their vivid 3D imaginations to life, unleashing
unlimited creativity.Summary
AI-Generated Summary