CLAY: Un Modelo Generativo a Gran Escala Controlable para Crear Activos 3D de Alta Calidad

Resumen

En el ámbito de la creatividad digital, nuestro potencial para crear intrincados mundos 3D a partir de la imaginación se ve a menudo obstaculizado por las limitaciones de las herramientas digitales existentes, que requieren una amplia experiencia y esfuerzos. Para reducir esta disparidad, presentamos CLAY, un generador de geometría y materiales en 3D diseñado para transformar sin esfuerzo la imaginación humana en estructuras digitales 3D intrincadas. CLAY admite entradas clásicas de texto o imagen, así como controles 3D conscientes de diversos primitivos (imágenes de múltiples vistas, voxels, cajas delimitadoras, nubes de puntos, representaciones implícitas, etc.). En su núcleo se encuentra un modelo generativo a gran escala compuesto por un Autoencoder Variacional (VAE) de múltiples resoluciones y un Transformador de Difusión latente (DiT) minimalista, para extraer priors 3D ricos directamente de una amplia gama de geometrías 3D. Específicamente, adopta campos neuronales para representar superficies continuas y completas y utiliza un módulo generativo de geometría con bloques de transformadores puros en el espacio latente. Presentamos un esquema de entrenamiento progresivo para entrenar a CLAY en un conjunto de datos de modelos 3D ultra grande obtenido a través de un pipeline de procesamiento cuidadosamente diseñado, lo que resulta en un generador de geometría nativo en 3D con 1.5 mil millones de parámetros. Para la generación de apariencia, CLAY se propone producir texturas de renderizado basadas en física (PBR) empleando un modelo de difusión de materiales de múltiples vistas que puede generar texturas de resolución 2K con modalidades de difusión, rugosidad y metálicas. Demostramos el uso de CLAY para una variedad de creaciones de activos 3D controlables, desde diseños conceptuales esquemáticos hasta activos listos para producción con detalles intrincados. Incluso los usuarios primerizos pueden utilizar CLAY fácilmente para dar vida a sus vívidas imaginaciones en 3D, desatando una creatividad ilimitada.

English

In the realm of digital creativity, our potential to craft intricate 3D worlds from imagination is often hampered by the limitations of existing digital tools, which demand extensive expertise and efforts. To narrow this disparity, we introduce CLAY, a 3D geometry and material generator designed to effortlessly transform human imagination into intricate 3D digital structures. CLAY supports classic text or image inputs as well as 3D-aware controls from diverse primitives (multi-view images, voxels, bounding boxes, point clouds, implicit representations, etc). At its core is a large-scale generative model composed of a multi-resolution Variational Autoencoder (VAE) and a minimalistic latent Diffusion Transformer (DiT), to extract rich 3D priors directly from a diverse range of 3D geometries. Specifically, it adopts neural fields to represent continuous and complete surfaces and uses a geometry generative module with pure transformer blocks in latent space. We present a progressive training scheme to train CLAY on an ultra large 3D model dataset obtained through a carefully designed processing pipeline, resulting in a 3D native geometry generator with 1.5 billion parameters. For appearance generation, CLAY sets out to produce physically-based rendering (PBR) textures by employing a multi-view material diffusion model that can generate 2K resolution textures with diffuse, roughness, and metallic modalities. We demonstrate using CLAY for a range of controllable 3D asset creations, from sketchy conceptual designs to production ready assets with intricate details. Even first time users can easily use CLAY to bring their vivid 3D imaginations to life, unleashing unlimited creativity.

CLAY: Un Modelo Generativo a Gran Escala Controlable para Crear Activos 3D de Alta Calidad

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

Resumen

Support