ChatPaper.aiChatPaper

ジオメトリ画像拡散:画像ベースの表面表現による高速でデータ効率の良いテキストから3Dへの生成

Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation

September 5, 2024
著者: Slava Elizarov, Ciara Rowles, Simon Donné
cs.AI

要旨

テキスト記述からの高品質な3Dオブジェクト生成は、計算コスト、3Dデータの不足、複雑な3D表現のため、依然として困難な課題である。本論文では、ジオメトリ画像を用いて3D形状を2D画像で効率的に表現することで、複雑な3D対応アーキテクチャを必要としない新しいText-to-3Dモデル「Geometry Image Diffusion(GIMDiffusion)」を提案する。協調制御メカニズムを統合することで、Stable Diffusionのような既存のText-to-Imageモデルが持つ豊富な2D事前知識を活用する。これにより、限られた3D学習データ(高品質な学習データのみを使用可能)であっても強力な汎化性能を実現し、IPAdapterのようなガイダンス技術との互換性も維持する。要約すると、GIMDiffusionは現在のText-to-Imageモデルと同等の速度で3Dアセットの生成を可能にする。生成されるオブジェクトは意味論的に意味のある分離された部品で構成され、内部構造を含むため、有用性と汎用性の両方が強化される。
English
Generating high-quality 3D objects from textual descriptions remains a challenging problem due to computational cost, the scarcity of 3D data, and complex 3D representations. We introduce Geometry Image Diffusion (GIMDiffusion), a novel Text-to-3D model that utilizes geometry images to efficiently represent 3D shapes using 2D images, thereby avoiding the need for complex 3D-aware architectures. By integrating a Collaborative Control mechanism, we exploit the rich 2D priors of existing Text-to-Image models such as Stable Diffusion. This enables strong generalization even with limited 3D training data (allowing us to use only high-quality training data) as well as retaining compatibility with guidance techniques such as IPAdapter. In short, GIMDiffusion enables the generation of 3D assets at speeds comparable to current Text-to-Image models. The generated objects consist of semantically meaningful, separate parts and include internal structures, enhancing both usability and versatility.
PDF273November 14, 2024