Latents 3D structurés pour une génération 3D évolutive et polyvalente
Structured 3D Latents for Scalable and Versatile 3D Generation
December 2, 2024
Auteurs: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI
Résumé
Nous introduisons une nouvelle méthode de génération 3D pour la création polyvalente et de haute qualité d'actifs 3D. La pierre angulaire est une représentation unifiée de Latence Structurée (SLAT) qui permet le décodage vers différents formats de sortie, tels que les champs de radiance, les gaussiennes 3D et les maillages. Cela est réalisé en intégrant une grille 3D peu peuplée avec des fonctionnalités visuelles multivues denses extraites d'un puissant modèle de fondation visuelle, capturant de manière exhaustive à la fois les informations structurelles (géométriques) et texturales (d'apparence) tout en maintenant la flexibilité lors du décodage. Nous utilisons des transformateurs de flux rectifiés adaptés pour SLAT en tant que nos modèles de génération 3D et formons des modèles avec jusqu'à 2 milliards de paramètres sur un grand ensemble de données d'actifs 3D de 500 000 objets divers. Notre modèle génère des résultats de haute qualité avec des conditions textuelles ou d'image, surpassant significativement les méthodes existantes, y compris les récentes à des échelles similaires. Nous présentons une sélection flexible de formats de sortie et des capacités d'édition 3D locales qui n'étaient pas offertes par les modèles précédents. Le code, le modèle et les données seront publiés.
English
We introduce a novel 3D generation method for versatile and high-quality 3D
asset creation. The cornerstone is a unified Structured LATent (SLAT)
representation which allows decoding to different output formats, such as
Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a
sparsely-populated 3D grid with dense multiview visual features extracted from
a powerful vision foundation model, comprehensively capturing both structural
(geometry) and textural (appearance) information while maintaining flexibility
during decoding. We employ rectified flow transformers tailored for SLAT as our
3D generation models and train models with up to 2 billion parameters on a
large 3D asset dataset of 500K diverse objects. Our model generates
high-quality results with text or image conditions, significantly surpassing
existing methods, including recent ones at similar scales. We showcase flexible
output format selection and local 3D editing capabilities which were not
offered by previous models. Code, model, and data will be released.Summary
AI-Generated Summary