ChatPaper.aiChatPaper

Pandora3D : Un Cadre Complet pour la Génération de Formes 3D et de Textures de Haute Qualité

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

February 20, 2025
Auteurs: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI

Résumé

Ce rapport présente un cadre complet pour la génération de formes 3D et de textures de haute qualité à partir de diverses entrées, incluant des images uniques, des images multi-vues et des descriptions textuelles. Le cadre se compose de deux parties principales : la génération de formes 3D et la génération de textures. (1) Le pipeline de génération de formes 3D utilise un Autoencodeur Variationnel (VAE) pour encoder des géométries 3D implicites dans un espace latent, ainsi qu'un réseau de diffusion pour générer des latents conditionnés par les entrées, avec des modifications pour améliorer la capacité du modèle. Une approche alternative de génération de maillages créés par des artistes (AM) est également explorée, donnant des résultats prometteurs pour des géométries plus simples. (2) La génération de textures implique un processus en plusieurs étapes, commençant par la génération d'images frontales, suivie de la génération d'images multi-vues, de la conversion de textures RGB en PBR, et du raffinement de textures multi-vues en haute résolution. Un planificateur de cohérence est intégré à chaque étape pour assurer une cohérence pixel à pixel entre les textures multi-vues lors de l'inférence, garantissant une intégration fluide. Le pipeline démontre une gestion efficace de divers formats d'entrée, exploitant des architectures neuronales avancées et des méthodologies novatrices pour produire du contenu 3D de haute qualité. Ce rapport détaille l'architecture du système, les résultats expérimentaux, et les directions futures potentielles pour améliorer et étendre le cadre. Le code source et les poids pré-entraînés sont disponibles à l'adresse suivante : https://github.com/Tencent/Tencent-XR-3DGen.
English
This report presents a comprehensive framework for generating high-quality 3D shapes and textures from diverse input prompts, including single images, multi-view images, and text descriptions. The framework consists of 3D shape generation and texture generation. (1). The 3D shape generation pipeline employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a latent space and a diffusion network to generate latents conditioned on input prompts, with modifications to enhance model capacity. An alternative Artist-Created Mesh (AM) generation approach is also explored, yielding promising results for simpler geometries. (2). Texture generation involves a multi-stage process starting with frontal images generation followed by multi-view images generation, RGB-to-PBR texture conversion, and high-resolution multi-view texture refinement. A consistency scheduler is plugged into every stage, to enforce pixel-wise consistency among multi-view textures during inference, ensuring seamless integration. The pipeline demonstrates effective handling of diverse input formats, leveraging advanced neural architectures and novel methodologies to produce high-quality 3D content. This report details the system architecture, experimental results, and potential future directions to improve and expand the framework. The source code and pretrained weights are released at: https://github.com/Tencent/Tencent-XR-3DGen.

Summary

AI-Generated Summary

PDF62February 25, 2025