Pandora3D: Un Framework Completo per la Generazione di Forme 3D e Texture di Alta Qualità
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation
February 20, 2025
Autori: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI
Abstract
Questo rapporto presenta un framework completo per la generazione di forme 3D e texture di alta qualità a partire da input eterogenei, tra cui immagini singole, immagini multi-vista e descrizioni testuali. Il framework si compone di due parti principali: generazione di forme 3D e generazione di texture. (1) La pipeline di generazione delle forme 3D utilizza un Variational Autoencoder (VAE) per codificare geometrie 3D implicite in uno spazio latente e una rete di diffusione per generare latenti condizionati sugli input, con modifiche per migliorare la capacità del modello. Viene inoltre esplorato un approccio alternativo basato su mesh create da artisti (AM), che produce risultati promettenti per geometrie più semplici. (2) La generazione delle texture prevede un processo multi-stadio che inizia con la generazione di immagini frontali, seguita dalla generazione di immagini multi-vista, la conversione da texture RGB a PBR e il perfezionamento ad alta risoluzione delle texture multi-vista. Uno scheduler di coerenza è integrato in ogni fase per garantire la coerenza pixel-per-pixel tra le texture multi-vista durante l'inferenza, assicurando un'integrazione senza soluzione di continuità.
La pipeline dimostra una gestione efficace di formati di input diversificati, sfruttando architetture neurali avanzate e metodologie innovative per produrre contenuti 3D di alta qualità. Questo rapporto descrive in dettaglio l'architettura del sistema, i risultati sperimentali e le potenziali direzioni future per migliorare ed espandere il framework. Il codice sorgente e i pesi pre-addestrati sono rilasciati al seguente indirizzo: https://github.com/Tencent/Tencent-XR-3DGen.
English
This report presents a comprehensive framework for generating high-quality 3D
shapes and textures from diverse input prompts, including single images,
multi-view images, and text descriptions. The framework consists of 3D shape
generation and texture generation. (1). The 3D shape generation pipeline
employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a
latent space and a diffusion network to generate latents conditioned on input
prompts, with modifications to enhance model capacity. An alternative
Artist-Created Mesh (AM) generation approach is also explored, yielding
promising results for simpler geometries. (2). Texture generation involves a
multi-stage process starting with frontal images generation followed by
multi-view images generation, RGB-to-PBR texture conversion, and
high-resolution multi-view texture refinement. A consistency scheduler is
plugged into every stage, to enforce pixel-wise consistency among multi-view
textures during inference, ensuring seamless integration.
The pipeline demonstrates effective handling of diverse input formats,
leveraging advanced neural architectures and novel methodologies to produce
high-quality 3D content. This report details the system architecture,
experimental results, and potential future directions to improve and expand the
framework. The source code and pretrained weights are released at:
https://github.com/Tencent/Tencent-XR-3DGen.Summary
AI-Generated Summary