ChatPaper.aiChatPaper

CLAY: Een Controleerbaar Grootschalig Generatief Model voor het Creëren van Hoogwaardige 3D-assets

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

May 30, 2024
Auteurs: Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu
cs.AI

Samenvatting

In het domein van digitale creativiteit wordt ons vermogen om complexe 3D-werelden vanuit de verbeelding te creëren vaak belemmerd door de beperkingen van bestaande digitale tools, die uitgebreide expertise en inspanning vereisen. Om deze kloof te verkleinen, introduceren we CLAY, een 3D-geometrie- en materiaalgenerator die is ontworpen om menselijke verbeelding moeiteloos om te zetten in ingewikkelde 3D-digitale structuren. CLAY ondersteunt klassieke tekst- of afbeeldingsinvoer, evenals 3D-bewuste besturingselementen vanuit diverse primitieven (multi-view afbeeldingen, voxels, begrenzingsvakken, puntenwolken, impliciete representaties, enz.). De kern bestaat uit een grootschalig generatief model, samengesteld uit een multi-resolutie Variational Autoencoder (VAE) en een minimalistische latente Diffusion Transformer (DiT), om rijke 3D-priors direct uit een diverse reeks 3D-geometrieën te extraheren. Specifiek maakt het gebruik van neurale velden om continue en complete oppervlakken te representeren en gebruikt het een geometrie-generatiemodule met pure transformer-blokken in de latente ruimte. We presenteren een progressief trainingsschema om CLAY te trainen op een ultragrote 3D-modeldataset, verkregen via een zorgvuldig ontworpen verwerkingspijplijn, wat resulteert in een 3D-native geometriegenerator met 1,5 miljard parameters. Voor het genereren van uiterlijk streeft CLAY ernaar fysiek gebaseerde rendering (PBR)-texturen te produceren door gebruik te maken van een multi-view materiaaldiffusiemodel dat 2K-resolutietexturen kan genereren met diffuse, ruwheid- en metalic-modalities. We demonstreren het gebruik van CLAY voor een reeks controleerbare 3D-assetcreaties, van schetsmatige conceptuele ontwerpen tot productieklare assets met ingewikkelde details. Zelfs eerste gebruikers kunnen CLAY gemakkelijk gebruiken om hun levendige 3D-verbeelding tot leven te brengen, waardoor onbeperkte creativiteit wordt ontketend.
English
In the realm of digital creativity, our potential to craft intricate 3D worlds from imagination is often hampered by the limitations of existing digital tools, which demand extensive expertise and efforts. To narrow this disparity, we introduce CLAY, a 3D geometry and material generator designed to effortlessly transform human imagination into intricate 3D digital structures. CLAY supports classic text or image inputs as well as 3D-aware controls from diverse primitives (multi-view images, voxels, bounding boxes, point clouds, implicit representations, etc). At its core is a large-scale generative model composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a diverse range of 3D geometries. Specifically, it adopts neural fields to represent continuous and complete surfaces and uses a geometry generative module with pure transformer blocks in latent space. We present a progressive training scheme to train CLAY on an ultra large 3D model dataset obtained through a carefully designed processing pipeline, resulting in a 3D native geometry generator with 1.5 billion parameters. For appearance generation, CLAY sets out to produce physically-based rendering (PBR) textures by employing a multi-view material diffusion model that can generate 2K resolution textures with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for a range of controllable 3D asset creations, from sketchy conceptual designs to production ready assets with intricate details. Even first time users can easily use CLAY to bring their vivid 3D imaginations to life, unleashing unlimited creativity.
PDF122February 8, 2026