オブジェクトは64x64ピクセルの価値がある:画像拡散による3Dオブジェクト生成
An Object is Worth 64x64 Pixels: Generating 3D Object via Image Diffusion
August 6, 2024
著者: Xingguang Yan, Han-Hung Lee, Ziyu Wan, Angel X. Chang
cs.AI
要旨
本論文では、「オブジェクト画像」と呼ばれる表現を用いて、UVマップ付きのリアルな3Dモデルを生成する新しいアプローチを提案します。このアプローチでは、表面形状、外観、パッチ構造を64x64ピクセルの画像に集約し、複雑な3D形状をより扱いやすい2D形式に変換します。これにより、ポリゴンメッシュに内在する幾何学的および意味論的な不規則性の課題に対処します。この手法により、Diffusion Transformersなどの画像生成モデルを直接3D形状生成に使用することが可能になります。ABOデータセットでの評価では、パッチ構造を持つ生成形状が、最近の3D生成モデルと同等のポイントクラウドFIDを達成しつつ、PBRマテリアル生成を自然にサポートすることを示しています。
English
We introduce a new approach for generating realistic 3D models with UV maps
through a representation termed "Object Images." This approach encapsulates
surface geometry, appearance, and patch structures within a 64x64 pixel image,
effectively converting complex 3D shapes into a more manageable 2D format. By
doing so, we address the challenges of both geometric and semantic irregularity
inherent in polygonal meshes. This method allows us to use image generation
models, such as Diffusion Transformers, directly for 3D shape generation.
Evaluated on the ABO dataset, our generated shapes with patch structures
achieve point cloud FID comparable to recent 3D generative models, while
naturally supporting PBR material generation.Summary
AI-Generated Summary