Pandora3D: Ein umfassendes Framework für die hochwertige Generierung von 3D-Formen und Texturen
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation
February 20, 2025
Autoren: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI
Zusammenfassung
Dieser Bericht präsentiert einen umfassenden Rahmen für die Erzeugung hochwertiger 3D-Formen und Texturen aus verschiedenen Eingabeimpulsen, einschließlich einzelner Bilder, Mehransichtsbilder und Textbeschreibungen. Der Rahmen besteht aus der 3D-Formgenerierung und der Texturgenerierung. (1). Der 3D-Formgenerierungspfad verwendet einen Variationalen Autoencoder (VAE), um implizite 3D-Geometrien in einen latenten Raum zu kodieren, und ein Diffusionsnetzwerk, um Latente zu generieren, die von Eingabeimpulsen abhängig sind, mit Modifikationen zur Verbesserung der Modellkapazität. Es wird auch ein alternativer Ansatz zur Erzeugung von Künstler-erstellten Meshes (AM) untersucht, der vielversprechende Ergebnisse für einfachere Geometrien liefert. (2). Die Texturgenerierung umfasst einen mehrstufigen Prozess, der mit der Generierung von Frontalbildern beginnt, gefolgt von der Generierung von Mehransichtsbildern, der RGB-zu-PBR-Texturumwandlung und der hochauflösenden Mehransicht-Texturverfeinerung. Ein Konsistenzplaner wird in jeden Schritt eingebaut, um eine pixelweise Konsistenz zwischen Mehransichtstexturen während der Inferenz durchzusetzen und eine nahtlose Integration zu gewährleisten.
Die Pipeline zeigt eine effektive Handhabung verschiedener Eingabeformate, indem fortschrittliche neuronale Architekturen und neuartige Methoden genutzt werden, um hochwertige 3D-Inhalte zu erzeugen. Dieser Bericht erläutert die Systemarchitektur, experimentelle Ergebnisse und potenzielle zukünftige Richtungen zur Verbesserung und Erweiterung des Rahmens. Der Quellcode und die vortrainierten Gewichte sind unter folgendem Link veröffentlicht: https://github.com/Tencent/Tencent-XR-3DGen.
English
This report presents a comprehensive framework for generating high-quality 3D
shapes and textures from diverse input prompts, including single images,
multi-view images, and text descriptions. The framework consists of 3D shape
generation and texture generation. (1). The 3D shape generation pipeline
employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a
latent space and a diffusion network to generate latents conditioned on input
prompts, with modifications to enhance model capacity. An alternative
Artist-Created Mesh (AM) generation approach is also explored, yielding
promising results for simpler geometries. (2). Texture generation involves a
multi-stage process starting with frontal images generation followed by
multi-view images generation, RGB-to-PBR texture conversion, and
high-resolution multi-view texture refinement. A consistency scheduler is
plugged into every stage, to enforce pixel-wise consistency among multi-view
textures during inference, ensuring seamless integration.
The pipeline demonstrates effective handling of diverse input formats,
leveraging advanced neural architectures and novel methodologies to produce
high-quality 3D content. This report details the system architecture,
experimental results, and potential future directions to improve and expand the
framework. The source code and pretrained weights are released at:
https://github.com/Tencent/Tencent-XR-3DGen.Summary
AI-Generated Summary