3DTopia-XL: Het schalen van hoogwaardige 3D-assetgeneratie via primitieve diffusie
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
September 19, 2024
Auteurs: Zhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu
cs.AI
Samenvatting
De toenemende vraag naar hoogwaardige 3D-assets in verschillende sectoren vereist efficiënte en geautomatiseerde creatie van 3D-inhoud. Ondanks recente vooruitgang in 3D generatieve modellen, hebben bestaande methoden nog steeds te maken met uitdagingen op het gebied van optimalisatiesnelheid, geometrische nauwkeurigheid en het gebrek aan assets voor op fysica gebaseerde rendering (PBR). In dit artikel introduceren we 3DTopia-XL, een schaalbaar inheems 3D generatief model dat is ontworpen om deze beperkingen te overwinnen. 3DTopia-XL maakt gebruik van een nieuw soort primitief-gebaseerde 3D representatie, PrimX, die gedetailleerde vorm, albedo en materiaalveld codeert in een compact tensorformaat, wat het modelleren van geometrie met hoge resolutie met PBR-assets vergemakkelijkt. Bovenop de nieuwe representatie stellen we een generatief kader voor op basis van Diffusion Transformer (DiT), dat bestaat uit 1) Primitieve Patch Compressie, 2) en Latente Primitieve Diffusie. 3DTopia-XL leert hoogwaardige 3D-assets te genereren op basis van tekstuele of visuele invoer. We voeren uitgebreide kwalitatieve en kwantitatieve experimenten uit om aan te tonen dat 3DTopia-XL aanzienlijk beter presteert dan bestaande methoden bij het genereren van hoogwaardige 3D-assets met fijnmazige texturen en materialen, waarbij efficiënt de kwaliteitskloof wordt overbrugd tussen generatieve modellen en praktische toepassingen in de echte wereld.
English
The increasing demand for high-quality 3D assets across various industries
necessitates efficient and automated 3D content creation. Despite recent
advancements in 3D generative models, existing methods still face challenges
with optimization speed, geometric fidelity, and the lack of assets for
physically based rendering (PBR). In this paper, we introduce 3DTopia-XL, a
scalable native 3D generative model designed to overcome these limitations.
3DTopia-XL leverages a novel primitive-based 3D representation, PrimX, which
encodes detailed shape, albedo, and material field into a compact tensorial
format, facilitating the modeling of high-resolution geometry with PBR assets.
On top of the novel representation, we propose a generative framework based on
Diffusion Transformer (DiT), which comprises 1) Primitive Patch Compression, 2)
and Latent Primitive Diffusion. 3DTopia-XL learns to generate high-quality 3D
assets from textual or visual inputs. We conduct extensive qualitative and
quantitative experiments to demonstrate that 3DTopia-XL significantly
outperforms existing methods in generating high-quality 3D assets with
fine-grained textures and materials, efficiently bridging the quality gap
between generative models and real-world applications.Summary
AI-Generated Summary