ChatPaper.aiChatPaper

Pandora3D: Un Marco Integral para la Generación de Formas 3D y Texturas de Alta Calidad

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

February 20, 2025
Autores: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI

Resumen

Este informe presenta un marco integral para la generación de formas 3D y texturas de alta calidad a partir de diversas entradas, incluyendo imágenes individuales, imágenes multivista y descripciones textuales. El marco consta de dos componentes principales: generación de formas 3D y generación de texturas. (1). La canalización de generación de formas 3D emplea un Autoencoder Variacional (VAE) para codificar geometrías 3D implícitas en un espacio latente y una red de difusión para generar latentes condicionados por las entradas, con modificaciones para mejorar la capacidad del modelo. También se explora un enfoque alternativo de generación de mallas creadas por artistas (AM), obteniendo resultados prometedores para geometrías más simples. (2). La generación de texturas implica un proceso de múltiples etapas que comienza con la generación de imágenes frontales, seguida de la generación de imágenes multivista, la conversión de texturas RGB a PBR y el refinamiento de texturas multivista de alta resolución. Un planificador de consistencia se integra en cada etapa para garantizar la coherencia píxel a píxel entre las texturas multivista durante la inferencia, asegurando una integración sin fisuras. La canalización demuestra un manejo efectivo de diversos formatos de entrada, aprovechando arquitecturas neuronales avanzadas y metodologías novedosas para producir contenido 3D de alta calidad. Este informe detalla la arquitectura del sistema, los resultados experimentales y las posibles direcciones futuras para mejorar y expandir el marco. El código fuente y los pesos preentrenados se publican en: https://github.com/Tencent/Tencent-XR-3DGen.
English
This report presents a comprehensive framework for generating high-quality 3D shapes and textures from diverse input prompts, including single images, multi-view images, and text descriptions. The framework consists of 3D shape generation and texture generation. (1). The 3D shape generation pipeline employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a latent space and a diffusion network to generate latents conditioned on input prompts, with modifications to enhance model capacity. An alternative Artist-Created Mesh (AM) generation approach is also explored, yielding promising results for simpler geometries. (2). Texture generation involves a multi-stage process starting with frontal images generation followed by multi-view images generation, RGB-to-PBR texture conversion, and high-resolution multi-view texture refinement. A consistency scheduler is plugged into every stage, to enforce pixel-wise consistency among multi-view textures during inference, ensuring seamless integration. The pipeline demonstrates effective handling of diverse input formats, leveraging advanced neural architectures and novel methodologies to produce high-quality 3D content. This report details the system architecture, experimental results, and potential future directions to improve and expand the framework. The source code and pretrained weights are released at: https://github.com/Tencent/Tencent-XR-3DGen.

Summary

AI-Generated Summary

PDF62February 25, 2025