ChatPaper.aiChatPaper

Pandora3D: 고품질 3D 형태 및 텍스처 생성을 위한 포괄적 프레임워크

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

February 20, 2025
저자: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI

초록

본 보고서는 단일 이미지, 다중 뷰 이미지, 텍스트 설명 등 다양한 입력 프롬프트로부터 고품질의 3D 모양과 텍스처를 생성하기 위한 포괄적인 프레임워크를 제시합니다. 이 프레임워크는 3D 모양 생성과 텍스처 생성으로 구성됩니다. (1) 3D 모양 생성 파이프라인은 Variational Autoencoder(VAE)를 사용하여 암묵적 3D 형상을 잠재 공간에 인코딩하고, 입력 프롬프트에 따라 잠재 변수를 생성하기 위해 확산 네트워크를 활용하며, 모델의 용량을 향상시키기 위한 수정이 적용되었습니다. 또한 더 단순한 형상에 대해 유망한 결과를 보이는 Artist-Created Mesh(AM) 생성 접근법도 탐구되었습니다. (2) 텍스처 생성은 정면 이미지 생성, 다중 뷰 이미지 생성, RGB-to-PBR 텍스처 변환, 고해상도 다중 뷰 텍스처 정제로 이어지는 다단계 프로세스를 포함합니다. 각 단계에는 일관성 스케줄러가 통합되어 추론 과정에서 다중 뷰 텍스처 간의 픽셀 단위 일관성을 강제함으로써 원활한 통합을 보장합니다. 이 파이프라인은 다양한 입력 형식을 효과적으로 처리하며, 고급 신경망 아키텍처와 새로운 방법론을 활용하여 고품질의 3D 콘텐츠를 생성합니다. 본 보고서는 시스템 아키텍처, 실험 결과, 그리고 프레임워크를 개선하고 확장하기 위한 잠재적인 미래 방향을 상세히 설명합니다. 소스 코드와 사전 학습된 가중치는 https://github.com/Tencent/Tencent-XR-3DGen에서 공개되었습니다.
English
This report presents a comprehensive framework for generating high-quality 3D shapes and textures from diverse input prompts, including single images, multi-view images, and text descriptions. The framework consists of 3D shape generation and texture generation. (1). The 3D shape generation pipeline employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a latent space and a diffusion network to generate latents conditioned on input prompts, with modifications to enhance model capacity. An alternative Artist-Created Mesh (AM) generation approach is also explored, yielding promising results for simpler geometries. (2). Texture generation involves a multi-stage process starting with frontal images generation followed by multi-view images generation, RGB-to-PBR texture conversion, and high-resolution multi-view texture refinement. A consistency scheduler is plugged into every stage, to enforce pixel-wise consistency among multi-view textures during inference, ensuring seamless integration. The pipeline demonstrates effective handling of diverse input formats, leveraging advanced neural architectures and novel methodologies to produce high-quality 3D content. This report details the system architecture, experimental results, and potential future directions to improve and expand the framework. The source code and pretrained weights are released at: https://github.com/Tencent/Tencent-XR-3DGen.
PDF62February 25, 2025