高品質な3D生成のための協調的マルチモーダルコーディング
Collaborative Multi-Modal Coding for High-Quality 3D Generation
August 21, 2025
著者: Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu
cs.AI
要旨
3Dコンテンツは本質的にマルチモーダルな特性を包含しており、様々なモダリティ(例:RGB画像、RGBD、ポイントクラウド)に投影することが可能です。各モダリティは3Dアセットモデリングにおいて異なる利点を示します:RGB画像は鮮やかな3Dテクスチャを含み、一方でポイントクラウドは細かな3Dジオメトリを定義します。しかし、既存の3Dネイティブ生成アーキテクチャの多くは、単一モダリティのパラダイム内で主に動作するため、マルチモーダルデータの相補的な利点を見落とすか、3D構造に制限されることで利用可能なトレーニングデータセットの範囲を限定しています。3Dモデリングにおいてマルチモーダルを包括的に活用するために、我々はTriMMを提案します。TriMMは、基本的なマルチモーダル(例:RGB、RGBD、ポイントクラウド)から学習する最初のフィードフォワード型3Dネイティブ生成モデルです。具体的には、1) TriMMはまず、モダリティ固有の特徴を統合しながらその独自の表現力を保持する協調的マルチモーダルコーディングを導入します。2) さらに、補助的な2Dおよび3Dの監視を導入して、マルチモーダルコーディングの堅牢性と性能を向上させます。3) 埋め込まれたマルチモーダルコードに基づいて、TriMMはトライプレーン潜在拡散モデルを採用し、テクスチャとジオメトリの詳細を強化した高品質の3Dアセットを生成します。複数の有名なデータセットでの広範な実験により、TriMMがマルチモーダルを効果的に活用することで、大規模データセットでトレーニングされたモデルと競争力のある性能を達成し、少量のトレーニングデータを利用しているにもかかわらず、その有効性が実証されました。さらに、最近のRGB-Dデータセットでの追加実験を行い、他のマルチモーダルデータセットを3D生成に組み込むことの実現可能性を検証しました。
English
3D content inherently encompasses multi-modal characteristics and can be
projected into different modalities (e.g., RGB images, RGBD, and point clouds).
Each modality exhibits distinct advantages in 3D asset modeling: RGB images
contain vivid 3D textures, whereas point clouds define fine-grained 3D
geometries. However, most existing 3D-native generative architectures either
operate predominantly within single-modality paradigms-thus overlooking the
complementary benefits of multi-modality data-or restrict themselves to 3D
structures, thereby limiting the scope of available training datasets. To
holistically harness multi-modalities for 3D modeling, we present TriMM, the
first feed-forward 3D-native generative model that learns from basic
multi-modalities (e.g., RGB, RGBD, and point cloud). Specifically, 1) TriMM
first introduces collaborative multi-modal coding, which integrates
modality-specific features while preserving their unique representational
strengths. 2) Furthermore, auxiliary 2D and 3D supervision are introduced to
raise the robustness and performance of multi-modal coding. 3) Based on the
embedded multi-modal code, TriMM employs a triplane latent diffusion model to
generate 3D assets of superior quality, enhancing both the texture and the
geometric detail. Extensive experiments on multiple well-known datasets
demonstrate that TriMM, by effectively leveraging multi-modality, achieves
competitive performance with models trained on large-scale datasets, despite
utilizing a small amount of training data. Furthermore, we conduct additional
experiments on recent RGB-D datasets, verifying the feasibility of
incorporating other multi-modal datasets into 3D generation.