Latentes 3D estructurados para generación 3D escalable y versátil.
Structured 3D Latents for Scalable and Versatile 3D Generation
December 2, 2024
Autores: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI
Resumen
Presentamos un novedoso método de generación 3D para la creación versátil y de alta calidad de activos 3D. La piedra angular es una representación unificada de Latente Estructurado (SLAT) que permite la decodificación a diferentes formatos de salida, como Campos de Radiación, Gaussianas 3D y mallas. Esto se logra mediante la integración de una rejilla 3D escasamente poblada con características visuales multivista densas extraídas de un potente modelo de base de visión, capturando de manera integral tanto la información estructural (geometría) como la textural (apariencia) manteniendo la flexibilidad durante la decodificación. Empleamos transformadores de flujo rectificados adaptados para SLAT como nuestros modelos de generación 3D y entrenamos modelos con hasta 2 mil millones de parámetros en un extenso conjunto de datos de activos 3D de 500K objetos diversos. Nuestro modelo genera resultados de alta calidad con condiciones de texto o imagen, superando significativamente a los métodos existentes, incluidos los más recientes en escalas similares. Mostramos la selección flexible de formatos de salida y capacidades de edición 3D locales que no ofrecían los modelos anteriores. El código, modelo y datos serán publicados.
English
We introduce a novel 3D generation method for versatile and high-quality 3D
asset creation. The cornerstone is a unified Structured LATent (SLAT)
representation which allows decoding to different output formats, such as
Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a
sparsely-populated 3D grid with dense multiview visual features extracted from
a powerful vision foundation model, comprehensively capturing both structural
(geometry) and textural (appearance) information while maintaining flexibility
during decoding. We employ rectified flow transformers tailored for SLAT as our
3D generation models and train models with up to 2 billion parameters on a
large 3D asset dataset of 500K diverse objects. Our model generates
high-quality results with text or image conditions, significantly surpassing
existing methods, including recent ones at similar scales. We showcase flexible
output format selection and local 3D editing capabilities which were not
offered by previous models. Code, model, and data will be released.Summary
AI-Generated Summary