Pandora3D: Een uitgebreid raamwerk voor hoogwaardige 3D-vorm- en textuurgeneratie
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation
February 20, 2025
Auteurs: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI
Samenvatting
Dit rapport presenteert een uitgebreid kader voor het genereren van hoogwaardige 3D-vormen en texturen van diverse invoerbronnen, waaronder enkele afbeeldingen, multi-view afbeeldingen en tekstbeschrijvingen. Het kader bestaat uit 3D-vormgeneratie en textuurgeneratie. (1). De 3D-vormgeneratie-pijplijn maakt gebruik van een Variational Autoencoder (VAE) om impliciete 3D-geometrieën te coderen in een latente ruimte en een diffusienetwerk om latents te genereren die geconditioneerd zijn op invoerbronnen, met aanpassingen om de modelcapaciteit te verbeteren. Er wordt ook een alternatieve Artist-Created Mesh (AM) generatiebenadering onderzocht, wat veelbelovende resultaten oplevert voor eenvoudigere geometrieën. (2). Textuurgeneratie omvat een meertrapsproces dat begint met het genereren van frontale afbeeldingen, gevolgd door het genereren van multi-view afbeeldingen, RGB-naar-PBR textuurconversie, en verfijning van textuur met hoge resolutie van multi-view. Een consistentieplanner wordt in elke fase ingevoegd om pixelgewijze consistentie tussen multi-view texturen tijdens inferentie af te dwingen, wat zorgt voor naadloze integratie.
De pijplijn toont effectieve verwerking van diverse invoerformaten, waarbij geavanceerde neurale architecturen en nieuwe methodologieën worden benut om hoogwaardige 3D-inhoud te produceren. Dit rapport beschrijft de systeemarchitectuur, experimentele resultaten en mogelijke toekomstige richtingen om het kader te verbeteren en uit te breiden. De broncode en vooraf getrainde gewichten zijn vrijgegeven op: https://github.com/Tencent/Tencent-XR-3DGen.
English
This report presents a comprehensive framework for generating high-quality 3D
shapes and textures from diverse input prompts, including single images,
multi-view images, and text descriptions. The framework consists of 3D shape
generation and texture generation. (1). The 3D shape generation pipeline
employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a
latent space and a diffusion network to generate latents conditioned on input
prompts, with modifications to enhance model capacity. An alternative
Artist-Created Mesh (AM) generation approach is also explored, yielding
promising results for simpler geometries. (2). Texture generation involves a
multi-stage process starting with frontal images generation followed by
multi-view images generation, RGB-to-PBR texture conversion, and
high-resolution multi-view texture refinement. A consistency scheduler is
plugged into every stage, to enforce pixel-wise consistency among multi-view
textures during inference, ensuring seamless integration.
The pipeline demonstrates effective handling of diverse input formats,
leveraging advanced neural architectures and novel methodologies to produce
high-quality 3D content. This report details the system architecture,
experimental results, and potential future directions to improve and expand the
framework. The source code and pretrained weights are released at:
https://github.com/Tencent/Tencent-XR-3DGen.Summary
AI-Generated Summary