ChatPaper.aiChatPaper

3DTopia-XL: Scalare la generazione di asset 3D di alta qualità tramite diffusione primitiva

3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

September 19, 2024
Autori: Zhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu
cs.AI

Abstract

La crescente domanda di asset 3D di alta qualità in vari settori rende necessaria la creazione efficiente e automatizzata di contenuti 3D. Nonostante i recenti progressi nei modelli generativi 3D, i metodi esistenti continuano a incontrare sfide legate alla velocità di ottimizzazione, alla fedeltà geometrica e alla mancanza di asset per il rendering basato sulla fisica (PBR). In questo articolo, presentiamo 3DTopia-XL, un modello generativo 3D nativo scalabile progettato per superare tali limitazioni. 3DTopia-XL sfrutta una nuova rappresentazione 3D basata su primitive, PrimX, che codifica dettagli sulla forma, albedo e campo materiale in un formato tensoriale compatto, facilitando la modellazione di geometrie ad alta risoluzione con asset PBR. Sulla base di questa nuova rappresentazione, proponiamo un framework generativo basato sul Diffusion Transformer (DiT), che comprende 1) Comprimi Patch Primitivi, e 2) Diffusione Primitiva Latente. 3DTopia-XL impara a generare asset 3D di alta qualità da input testuali o visivi. Conduciamo ampi esperimenti qualitativi e quantitativi per dimostrare che 3DTopia-XL supera significativamente i metodi esistenti nella generazione di asset 3D di alta qualità con texture e materiali dettagliati, colmando efficientemente il divario di qualità tra i modelli generativi e le applicazioni reali.
English
The increasing demand for high-quality 3D assets across various industries necessitates efficient and automated 3D content creation. Despite recent advancements in 3D generative models, existing methods still face challenges with optimization speed, geometric fidelity, and the lack of assets for physically based rendering (PBR). In this paper, we introduce 3DTopia-XL, a scalable native 3D generative model designed to overcome these limitations. 3DTopia-XL leverages a novel primitive-based 3D representation, PrimX, which encodes detailed shape, albedo, and material field into a compact tensorial format, facilitating the modeling of high-resolution geometry with PBR assets. On top of the novel representation, we propose a generative framework based on Diffusion Transformer (DiT), which comprises 1) Primitive Patch Compression, 2) and Latent Primitive Diffusion. 3DTopia-XL learns to generate high-quality 3D assets from textual or visual inputs. We conduct extensive qualitative and quantitative experiments to demonstrate that 3DTopia-XL significantly outperforms existing methods in generating high-quality 3D assets with fine-grained textures and materials, efficiently bridging the quality gap between generative models and real-world applications.

Summary

AI-Generated Summary

PDF222November 16, 2024