3DTopia-XL: Skalierung der hochwertigen 3D-Asset-Erzeugung durch primitive Diffusion
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion
September 19, 2024
Autoren: Zhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu
cs.AI
Zusammenfassung
Die steigende Nachfrage nach hochwertigen 3D-Ressourcen in verschiedenen Branchen erfordert eine effiziente und automatisierte Erstellung von 3D-Inhalten. Trotz der jüngsten Fortschritte bei 3D-generativen Modellen stehen bestehende Methoden immer noch vor Herausforderungen hinsichtlich Optimierungsgeschwindigkeit, geometrischer Treue und dem Mangel an Ressourcen für physikalisch basiertes Rendering (PBR). In diesem Paper stellen wir 3DTopia-XL vor, ein skalierbares natives 3D-generatives Modell, das entwickelt wurde, um diese Einschränkungen zu überwinden. 3DTopia-XL nutzt eine neuartige primitives-basierte 3D-Darstellung, PrimX, die detaillierte Form, Albedo und Materialfeld in einem kompakten tensoriellen Format codiert, was die Modellierung von hochauflösender Geometrie mit PBR-Ressourcen erleichtert. Auf Basis der neuartigen Darstellung schlagen wir ein generatives Framework auf Basis des Diffusion Transformer (DiT) vor, das 1) Primitive Patch Compression und 2) Latent Primitive Diffusion umfasst. 3DTopia-XL lernt, hochwertige 3D-Ressourcen aus textuellen oder visuellen Eingaben zu generieren. Wir führen umfangreiche qualitative und quantitative Experimente durch, um zu zeigen, dass 3DTopia-XL signifikant bessere Leistungen als bestehende Methoden bei der Generierung hochwertiger 3D-Ressourcen mit fein abgestuften Texturen und Materialien erbringt und somit effizient die Qualitätslücke zwischen generativen Modellen und realen Anwendungen überbrückt.
English
The increasing demand for high-quality 3D assets across various industries
necessitates efficient and automated 3D content creation. Despite recent
advancements in 3D generative models, existing methods still face challenges
with optimization speed, geometric fidelity, and the lack of assets for
physically based rendering (PBR). In this paper, we introduce 3DTopia-XL, a
scalable native 3D generative model designed to overcome these limitations.
3DTopia-XL leverages a novel primitive-based 3D representation, PrimX, which
encodes detailed shape, albedo, and material field into a compact tensorial
format, facilitating the modeling of high-resolution geometry with PBR assets.
On top of the novel representation, we propose a generative framework based on
Diffusion Transformer (DiT), which comprises 1) Primitive Patch Compression, 2)
and Latent Primitive Diffusion. 3DTopia-XL learns to generate high-quality 3D
assets from textual or visual inputs. We conduct extensive qualitative and
quantitative experiments to demonstrate that 3DTopia-XL significantly
outperforms existing methods in generating high-quality 3D assets with
fine-grained textures and materials, efficiently bridging the quality gap
between generative models and real-world applications.Summary
AI-Generated Summary