ChatPaper.aiChatPaper

Pandora3D:高品質な3D形状とテクスチャ生成のための包括的フレームワーク

Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation

February 20, 2025
著者: Jiayu Yang, Taizhang Shang, Weixuan Sun, Xibin Song, Ziang Cheng, Senbo Wang, Shenzhou Chen, Weizhe Liu, Hongdong Li, Pan Ji
cs.AI

要旨

本報告書は、単一画像、マルチビュー画像、テキスト記述など多様な入力プロンプトから高品質な3D形状とテクスチャを生成するための包括的なフレームワークを提示する。このフレームワークは、3D形状生成とテクスチャ生成の2つの主要なコンポーネントで構成されている。(1) 3D形状生成パイプラインでは、Variational Autoencoder (VAE) を用いて暗黙的な3Dジオメトリを潜在空間にエンコードし、拡散ネットワークを利用して入力プロンプトに基づく潜在変数を生成する。モデルの容量を向上させるための改良が施されており、また、より単純な形状に対して有望な結果を示すArtist-Created Mesh (AM) 生成アプローチも検討されている。(2) テクスチャ生成は、正面画像生成から始まり、マルチビュー画像生成、RGB-to-PBRテクスチャ変換、高解像度マルチビューテクスチャの精緻化という多段階のプロセスを経る。各段階には一貫性スケジューラが組み込まれており、推論時にマルチビューテクスチャ間のピクセル単位の一貫性を強制し、シームレスな統合を実現する。 このパイプラインは、多様な入力形式を効果的に処理し、高度なニューラルアーキテクチャと新規の方法論を活用して高品質な3Dコンテンツを生成する。本報告書では、システムアーキテクチャ、実験結果、およびフレームワークの改善と拡張に向けた今後の可能性について詳細に述べる。ソースコードと事前学習済みの重みは、https://github.com/Tencent/Tencent-XR-3DGen で公開されている。
English
This report presents a comprehensive framework for generating high-quality 3D shapes and textures from diverse input prompts, including single images, multi-view images, and text descriptions. The framework consists of 3D shape generation and texture generation. (1). The 3D shape generation pipeline employs a Variational Autoencoder (VAE) to encode implicit 3D geometries into a latent space and a diffusion network to generate latents conditioned on input prompts, with modifications to enhance model capacity. An alternative Artist-Created Mesh (AM) generation approach is also explored, yielding promising results for simpler geometries. (2). Texture generation involves a multi-stage process starting with frontal images generation followed by multi-view images generation, RGB-to-PBR texture conversion, and high-resolution multi-view texture refinement. A consistency scheduler is plugged into every stage, to enforce pixel-wise consistency among multi-view textures during inference, ensuring seamless integration. The pipeline demonstrates effective handling of diverse input formats, leveraging advanced neural architectures and novel methodologies to produce high-quality 3D content. This report details the system architecture, experimental results, and potential future directions to improve and expand the framework. The source code and pretrained weights are released at: https://github.com/Tencent/Tencent-XR-3DGen.

Summary

AI-Generated Summary

PDF62February 25, 2025