CLAY: Управляемая масштабная генеративная модель для создания высококачественных 3D-объектов
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
May 30, 2024
Авторы: Longwen Zhang, Ziyu Wang, Qixuan Zhang, Qiwei Qiu, Anqi Pang, Haoran Jiang, Wei Yang, Lan Xu, Jingyi Yu
cs.AI
Аннотация
В области цифрового творчества наше потенциальное умение создавать сложные 3D миры из воображения часто ограничивается ограничениями существующих цифровых инструментов, требующих обширной экспертизы и усилий. Для сокращения этого разрыва мы представляем CLAY, генератор 3D геометрии и материалов, разработанный для легкого превращения человеческого воображения в сложные 3D цифровые структуры. CLAY поддерживает классические текстовые или изображенческие входы, а также управление 3D-контролями от различных примитивов (многовидовые изображения, воксели, ограничивающие параллелепипеды, облака точек, неявные представления и т. д.). В его основе лежит масштабная генеративная модель, состоящая из многоуровневого вариационного автокодировщика (VAE) и минималистичного латентного диффузионного трансформера (DiT), для извлечения богатых 3D априорных знаний непосредственно из разнообразных 3D геометрий. В частности, он использует нейронные поля для представления непрерывных и полных поверхностей и использует геометрический генеративный модуль с чистыми блоками трансформатора в латентном пространстве. Мы представляем прогрессивную схему обучения для обучения CLAY на сверхбольшом наборе данных 3D-моделей, полученных через тщательно разработанный конвейер обработки, что приводит к генератору 3D геометрии с 1,5 миллиарда параметров. Для генерации внешнего вида CLAY стремится создавать текстуры физически основанного рендеринга (PBR), используя многовидовую модель диффузии материалов, способную генерировать текстуры разрешением 2K с диффузией, шероховатостью и металлическими модальностями. Мы демонстрируем использование CLAY для создания ряда управляемых 3D-активов, от набросков концептуальных дизайнов до активов, готовых к производству с сложными деталями. Даже новички могут легко использовать CLAY, чтобы оживить свои яркие 3D воображения, раскрывая безграничное творчество.
English
In the realm of digital creativity, our potential to craft intricate 3D
worlds from imagination is often hampered by the limitations of existing
digital tools, which demand extensive expertise and efforts. To narrow this
disparity, we introduce CLAY, a 3D geometry and material generator designed to
effortlessly transform human imagination into intricate 3D digital structures.
CLAY supports classic text or image inputs as well as 3D-aware controls from
diverse primitives (multi-view images, voxels, bounding boxes, point clouds,
implicit representations, etc). At its core is a large-scale generative model
composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic
latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a
diverse range of 3D geometries. Specifically, it adopts neural fields to
represent continuous and complete surfaces and uses a geometry generative
module with pure transformer blocks in latent space. We present a progressive
training scheme to train CLAY on an ultra large 3D model dataset obtained
through a carefully designed processing pipeline, resulting in a 3D native
geometry generator with 1.5 billion parameters. For appearance generation, CLAY
sets out to produce physically-based rendering (PBR) textures by employing a
multi-view material diffusion model that can generate 2K resolution textures
with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for
a range of controllable 3D asset creations, from sketchy conceptual designs to
production ready assets with intricate details. Even first time users can
easily use CLAY to bring their vivid 3D imaginations to life, unleashing
unlimited creativity.Summary
AI-Generated Summary