Pandora3D: Un Marco Integral para la Generación de Formas 3D y Texturas de Alta Calidad
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation
February 20, 2025
Autores: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI
Resumen
Este informe presenta un marco integral para la generación de formas 3D y texturas de alta calidad a partir de diversas entradas, incluyendo imágenes individuales, imágenes multivista y descripciones textuales. El marco consta de dos componentes principales: generación de formas 3D y generación de texturas. (1). La canalización de generación de formas 3D emplea un Autoencoder Variacional (VAE) para codificar geometrías 3D implícitas en un espacio latente y una red de difusión para generar latentes condicionados por las entradas, con modificaciones para mejorar la capacidad del modelo. También se explora un enfoque alternativo de generación de mallas creadas por artistas (AM), obteniendo resultados prometedores para geometrías más simples. (2). La generación de texturas implica un proceso de múltiples etapas que comienza con la generación de imágenes frontales, seguida de la generación de imágenes multivista, la conversión de texturas RGB a PBR y el refinamiento de texturas multivista de alta resolución. Un planificador de consistencia se integra en cada etapa para garantizar la coherencia píxel a píxel entre las texturas multivista durante la inferencia, asegurando una integración sin fisuras.
La canalización demuestra un manejo efectivo de diversos formatos de entrada, aprovechando arquitecturas neuronales avanzadas y metodologías novedosas para producir contenido 3D de alta calidad. Este informe detalla la arquitectura del sistema, los resultados experimentales y las posibles direcciones futuras para mejorar y expandir el marco. El código fuente y los pesos preentrenados se publican en: https://github.com/Tencent/Tencent-XR-3DGen.
English
This report presents a comprehensive framework for generating high-quality 3D
shapes and textures from diverse input prompts, including single images,
multi-view images, and text descriptions. The framework consists of 3D shape
generation and texture generation. (1). The 3D shape generation pipeline
employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a
latent space and a diffusion network to generate latents conditioned on input
prompts, with modifications to enhance model capacity. An alternative
Artist-Created Mesh (AM) generation approach is also explored, yielding
promising results for simpler geometries. (2). Texture generation involves a
multi-stage process starting with frontal images generation followed by
multi-view images generation, RGB-to-PBR texture conversion, and
high-resolution multi-view texture refinement. A consistency scheduler is
plugged into every stage, to enforce pixel-wise consistency among multi-view
textures during inference, ensuring seamless integration.
The pipeline demonstrates effective handling of diverse input formats,
leveraging advanced neural architectures and novel methodologies to produce
high-quality 3D content. This report details the system architecture,
experimental results, and potential future directions to improve and expand the
framework. The source code and pretrained weights are released at:
https://github.com/Tencent/Tencent-XR-3DGen.Summary
AI-Generated Summary