ChatPaper.aiChatPaper

Pandora3D: Um Framework Abrangente para Geração de Formas e Texturas 3D de Alta Qualidade

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

February 20, 2025
Autores: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI

Resumo

Este relatório apresenta um framework abrangente para a geração de formas 3D e texturas de alta qualidade a partir de diversos tipos de prompts de entrada, incluindo imagens únicas, imagens multivista e descrições textuais. O framework é composto por geração de formas 3D e geração de texturas. (1). O pipeline de geração de formas 3D emprega um Autoencoder Variacional (VAE) para codificar geometrias 3D implícitas em um espaço latente e uma rede de difusão para gerar latentes condicionados aos prompts de entrada, com modificações para aumentar a capacidade do modelo. Uma abordagem alternativa de geração de Malhas Criadas por Artistas (AM) também é explorada, obtendo resultados promissores para geometrias mais simples. (2). A geração de texturas envolve um processo em múltiplos estágios, começando com a geração de imagens frontais, seguida pela geração de imagens multivista, conversão de texturas RGB para PBR e refinamento de texturas multivista em alta resolução. Um planejador de consistência é integrado em cada estágio para impor consistência pixel a pixel entre as texturas multivista durante a inferência, garantindo uma integração perfeita. O pipeline demonstra eficácia no tratamento de diversos formatos de entrada, aproveitando arquiteturas neurais avançadas e metodologias inovadoras para produzir conteúdo 3D de alta qualidade. Este relatório detalha a arquitetura do sistema, os resultados experimentais e as possíveis direções futuras para aprimorar e expandir o framework. O código-fonte e os pesos pré-treinados estão disponíveis em: https://github.com/Tencent/Tencent-XR-3DGen.
English
This report presents a comprehensive framework for generating high-quality 3D shapes and textures from diverse input prompts, including single images, multi-view images, and text descriptions. The framework consists of 3D shape generation and texture generation. (1). The 3D shape generation pipeline employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a latent space and a diffusion network to generate latents conditioned on input prompts, with modifications to enhance model capacity. An alternative Artist-Created Mesh (AM) generation approach is also explored, yielding promising results for simpler geometries. (2). Texture generation involves a multi-stage process starting with frontal images generation followed by multi-view images generation, RGB-to-PBR texture conversion, and high-resolution multi-view texture refinement. A consistency scheduler is plugged into every stage, to enforce pixel-wise consistency among multi-view textures during inference, ensuring seamless integration. The pipeline demonstrates effective handling of diverse input formats, leveraging advanced neural architectures and novel methodologies to produce high-quality 3D content. This report details the system architecture, experimental results, and potential future directions to improve and expand the framework. The source code and pretrained weights are released at: https://github.com/Tencent/Tencent-XR-3DGen.

Summary

AI-Generated Summary

PDF62February 25, 2025