3DTopia-XL : Mise à l'échelle de la génération d'actifs 3D de haute qualité via la diffusion de primitives
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
September 19, 2024
Auteurs: Zhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu
cs.AI
Résumé
La demande croissante d'actifs 3D de haute qualité dans diverses industries nécessite une création de contenu 3D efficace et automatisée. Malgré les récents progrès dans les modèles génératifs 3D, les méthodes existantes rencontrent encore des défis en termes de vitesse d'optimisation, de fidélité géométrique et du manque d'actifs pour le rendu basé sur la physique (PBR). Dans cet article, nous présentons 3DTopia-XL, un modèle génératif 3D natif et évolutif conçu pour surmonter ces limitations. 3DTopia-XL exploite une représentation 3D basée sur des primitives novatrice, PrimX, qui encode la forme détaillée, l'albédo et le champ de matériau dans un format tensoriel compact, facilitant la modélisation de géométries haute résolution avec des actifs PBR. En plus de cette représentation novatrice, nous proposons un cadre génératif basé sur le Transformateur de Diffusion (DiT), qui comprend 1) la Compression de Patch Primitif, et 2) la Diffusion de Primitif Latent. 3DTopia-XL apprend à générer des actifs 3D de haute qualité à partir d'entrées textuelles ou visuelles. Nous menons des expériences qualitatives et quantitatives approfondies pour démontrer que 3DTopia-XL surpasse significativement les méthodes existantes dans la génération d'actifs 3D de haute qualité avec des textures et des matériaux fins, comblant efficacement l'écart de qualité entre les modèles génératifs et les applications du monde réel.
English
The increasing demand for high-quality 3D assets across various industries
necessitates efficient and automated 3D content creation. Despite recent
advancements in 3D generative models, existing methods still face challenges
with optimization speed, geometric fidelity, and the lack of assets for
physically based rendering (PBR). In this paper, we introduce 3DTopia-XL, a
scalable native 3D generative model designed to overcome these limitations.
3DTopia-XL leverages a novel primitive-based 3D representation, PrimX, which
encodes detailed shape, albedo, and material field into a compact tensorial
format, facilitating the modeling of high-resolution geometry with PBR assets.
On top of the novel representation, we propose a generative framework based on
Diffusion Transformer (DiT), which comprises 1) Primitive Patch Compression, 2)
and Latent Primitive Diffusion. 3DTopia-XL learns to generate high-quality 3D
assets from textual or visual inputs. We conduct extensive qualitative and
quantitative experiments to demonstrate that 3DTopia-XL significantly
outperforms existing methods in generating high-quality 3D assets with
fine-grained textures and materials, efficiently bridging the quality gap
between generative models and real-world applications.Summary
AI-Generated Summary