ChatPaper.aiChatPaper

3DTopia-XL: Масштабирование генерации высококачественных 3D-объектов с помощью диффузии примитивов

3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

September 19, 2024
Авторы: Zhaoxi Chen, Jiaxiang Tang, Yuhao Dong, Ziang Cao, Fangzhou Hong, Yushi Lan, Tengfei Wang, Haozhe Xie, Tong Wu, Shunsuke Saito, Liang Pan, Dahua Lin, Ziwei Liu
cs.AI

Аннотация

Растущий спрос на высококачественные 3D-ресурсы в различных отраслях требует эффективного и автоматизированного создания 3D-контента. Несмотря на недавние достижения в области 3D-генеративных моделей, существующие методы все еще сталкиваются с проблемами скорости оптимизации, геометрической точности и нехваткой ресурсов для физически основанного рендеринга (PBR). В данной статье мы представляем 3DTopia-XL, масштабную собственную 3D-генеративную модель, разработанную для преодоления этих ограничений. 3DTopia-XL использует новаторское примитивное трехмерное представление, PrimX, которое кодирует детальную форму, альбедо и материальное поле в компактном тензорном формате, облегчая моделирование геометрии высокого разрешения с ресурсами PBR. На основе нового представления мы предлагаем генеративную структуру на основе Диффузионного Трансформера (DiT), которая включает в себя 1) Сжатие Примитивного Патча и 2) Латентную Диффузию Примитивов. 3DTopia-XL учится генерировать высококачественные 3D-ресурсы из текстовых или визуальных входных данных. Мы проводим обширные качественные и количественные эксперименты, чтобы продемонстрировать, что 3DTopia-XL значительно превосходит существующие методы в создании высококачественных 3D-ресурсов с мелкозернистыми текстурами и материалами, эффективно сокращая разрыв в качестве между генеративными моделями и прикладными задачами в реальном мире.
English
The increasing demand for high-quality 3D assets across various industries necessitates efficient and automated 3D content creation. Despite recent advancements in 3D generative models, existing methods still face challenges with optimization speed, geometric fidelity, and the lack of assets for physically based rendering (PBR). In this paper, we introduce 3DTopia-XL, a scalable native 3D generative model designed to overcome these limitations. 3DTopia-XL leverages a novel primitive-based 3D representation, PrimX, which encodes detailed shape, albedo, and material field into a compact tensorial format, facilitating the modeling of high-resolution geometry with PBR assets. On top of the novel representation, we propose a generative framework based on Diffusion Transformer (DiT), which comprises 1) Primitive Patch Compression, 2) and Latent Primitive Diffusion. 3DTopia-XL learns to generate high-quality 3D assets from textual or visual inputs. We conduct extensive qualitative and quantitative experiments to demonstrate that 3DTopia-XL significantly outperforms existing methods in generating high-quality 3D assets with fine-grained textures and materials, efficiently bridging the quality gap between generative models and real-world applications.

Summary

AI-Generated Summary

PDF222November 16, 2024