Gestructureerde 3D-latenties voor schaalbare en veelzijdige 3D-generatie.
Structured 3D Latents for Scalable and Versatile 3D Generation
December 2, 2024
Auteurs: Jianfeng Xiang, Zelong Lv, Sicheng Xu, Yu Deng, Ruicheng Wang, Bowen Zhang, Dong Chen, Xin Tong, Jiaolong Yang
cs.AI
Samenvatting
We introduceren een nieuw 3D-generatiemethode voor veelzijdige en hoogwaardige 3D-assetcreatie. De hoeksteen is een verenigde Gestructureerde LATente (SLAT) representatie die het mogelijk maakt om te decoderen naar verschillende outputformaten, zoals Radiance Fields, 3D Gaussians en meshes. Dit wordt bereikt door een dunbevolkt 3D-rooster te integreren met dichte multiview visuele kenmerken die zijn geëxtraheerd uit een krachtig vision foundation model, waarbij zowel structurele (geometrie) als texturale (uiterlijk) informatie uitgebreid worden vastgelegd terwijl flexibiliteit tijdens decodering behouden blijft. We maken gebruik van gerechtvaardigde flow transformers die zijn afgestemd op SLAT als onze 3D-generatiemodellen en trainen modellen met maximaal 2 miljard parameters op een grote 3D-assetdataset van 500K diverse objecten. Ons model genereert hoogwaardige resultaten met tekst- of beeldcondities, waarbij bestaande methoden aanzienlijk worden overtroffen, inclusief recente methoden op vergelijkbare schalen. We tonen flexibele outputformaatselectie en lokale 3D-bewerkingsmogelijkheden die niet werden aangeboden door eerdere modellen. Code, model en data zullen worden vrijgegeven.
English
We introduce a novel 3D generation method for versatile and high-quality 3D
asset creation. The cornerstone is a unified Structured LATent (SLAT)
representation which allows decoding to different output formats, such as
Radiance Fields, 3D Gaussians, and meshes. This is achieved by integrating a
sparsely-populated 3D grid with dense multiview visual features extracted from
a powerful vision foundation model, comprehensively capturing both structural
(geometry) and textural (appearance) information while maintaining flexibility
during decoding. We employ rectified flow transformers tailored for SLAT as our
3D generation models and train models with up to 2 billion parameters on a
large 3D asset dataset of 500K diverse objects. Our model generates
high-quality results with text or image conditions, significantly surpassing
existing methods, including recent ones at similar scales. We showcase flexible
output format selection and local 3D editing capabilities which were not
offered by previous models. Code, model, and data will be released.