ChatPaper.aiChatPaper

Latentes 3D Estruturados para Geração 3D Escalável e Versátil

Structured 3D Latents for Scalable and Versatile 3D Generation

December 2, 2024
Autores: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI

Resumo

Apresentamos um novo método de geração 3D para a criação versátil e de alta qualidade de ativos 3D. O alicerce é uma representação unificada de Latente Estruturado (SLAT) que permite a decodificação em diferentes formatos de saída, como Campos de Radiância, Gaussianas 3D e malhas. Isso é alcançado integrando uma grade 3D esparsamente povoada com características visuais multivisão densas extraídas de um modelo de fundação visual poderoso, capturando abrangente tanto informações estruturais (geometria) quanto texturais (aparência) enquanto mantém flexibilidade durante a decodificação. Empregamos transformadores de fluxo retificados adaptados para SLAT como nossos modelos de geração 3D e treinamos modelos com até 2 bilhões de parâmetros em um grande conjunto de dados de ativos 3D de 500 mil objetos diversos. Nosso modelo gera resultados de alta qualidade com condições de texto ou imagem, superando significativamente métodos existentes, incluindo os mais recentes em escalas semelhantes. Demonstramos a seleção flexível de formato de saída e capacidades de edição 3D local que não eram oferecidas por modelos anteriores. O código, modelo e dados serão disponibilizados.
English
We introduce a novel 3D generation method for versatile and high-quality 3D asset creation. The cornerstone is a unified Structured LATent (SLAT) representation which allows decoding to different output formats, such as Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a sparsely-populated 3D grid with dense multiview visual features extracted from a powerful vision foundation model, comprehensively capturing both structural (geometry) and textural (appearance) information while maintaining flexibility during decoding. We employ rectified flow transformers tailored for SLAT as our 3D generation models and train models with up to 2 billion parameters on a large 3D asset dataset of 500K diverse objects. Our model generates high-quality results with text or image conditions, significantly surpassing existing methods, including recent ones at similar scales. We showcase flexible output format selection and local 3D editing capabilities which were not offered by previous models. Code, model, and data will be released.

Summary

AI-Generated Summary

PDF769December 6, 2024