ChatPaper.aiChatPaper

CLAY: Ein steuerbares großangelegtes Generativmodell zur Erstellung hochwertiger 3D-Objekte

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

May 30, 2024
Autoren: Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu
cs.AI

Zusammenfassung

Im Bereich der digitalen Kreativität wird unser Potenzial, komplexe 3D-Welten aus der Vorstellungskraft zu erschaffen, oft durch die Einschränkungen bestehender digitaler Werkzeuge behindert, die umfangreiches Fachwissen und Anstrengungen erfordern. Um diese Diskrepanz zu verringern, stellen wir CLAY vor, einen 3D-Geometrie- und Materialgenerator, der entwickelt wurde, um die menschliche Vorstellungskraft mühelos in komplexe 3D-Digitalstrukturen zu verwandeln. CLAY unterstützt klassische Text- oder Bildinputs sowie 3D-bewusste Steuerelemente aus verschiedenen Primitiven (Multi-View-Bilder, Voxel, Bounding Boxes, Punktewolken, implizite Darstellungen usw.). In seinem Kern befindet sich ein groß angelegtes generatives Modell, bestehend aus einem Multi-Resolution Variational Autoencoder (VAE) und einem minimalistischen latenten Diffusion Transformer (DiT), um reichhaltige 3D-Prioritäten direkt aus einer vielfältigen Palette von 3D-Geometrien zu extrahieren. Speziell verwendet es neuronale Felder, um kontinuierliche und vollständige Oberflächen darzustellen und nutzt ein Geometrie-generatives Modul mit reinen Transformer-Blöcken im latenten Raum. Wir präsentieren ein progressives Schulungsschema, um CLAY auf einem sehr großen 3D-Modell-Datensatz zu trainieren, der durch eine sorgfältig entworfene Verarbeitungspipeline erhalten wurde und in einem 3D-eigenen Geometrie-Generator mit 1,5 Milliarden Parametern resultiert. Für die Erscheinungsgenerierung zielt CLAY darauf ab, physikalisch basierte Rendering (PBR) Texturen zu erzeugen, indem es ein Multi-View-Materialdiffusionsmodell verwendet, das 2K-Auflösungstexturen mit diffusen, Rauheits- und metallischen Modalitäten generieren kann. Wir zeigen die Verwendung von CLAY für eine Vielzahl von steuerbaren 3D-Asset-Kreationen, von skizzenhaften Konzeptentwürfen bis hin zu produktionsfertigen Assets mit komplexen Details. Selbst Erstbenutzer können CLAY problemlos verwenden, um ihre lebendigen 3D-Vorstellungen zum Leben zu erwecken und unbegrenzte Kreativität freizusetzen.
English
In the realm of digital creativity, our potential to craft intricate 3D worlds from imagination is often hampered by the limitations of existing digital tools, which demand extensive expertise and efforts. To narrow this disparity, we introduce CLAY, a 3D geometry and material generator designed to effortlessly transform human imagination into intricate 3D digital structures. CLAY supports classic text or image inputs as well as 3D-aware controls from diverse primitives (multi-view images, voxels, bounding boxes, point clouds, implicit representations, etc). At its core is a large-scale generative model composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a diverse range of 3D geometries. Specifically, it adopts neural fields to represent continuous and complete surfaces and uses a geometry generative module with pure transformer blocks in latent space. We present a progressive training scheme to train CLAY on an ultra large 3D model dataset obtained through a carefully designed processing pipeline, resulting in a 3D native geometry generator with 1.5 billion parameters. For appearance generation, CLAY sets out to produce physically-based rendering (PBR) textures by employing a multi-view material diffusion model that can generate 2K resolution textures with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for a range of controllable 3D asset creations, from sketchy conceptual designs to production ready assets with intricate details. Even first time users can easily use CLAY to bring their vivid 3D imaginations to life, unleashing unlimited creativity.

Summary

AI-Generated Summary

PDF122November 28, 2024