DiffSplat: スケーラブルなガウススプラット生成のための画像拡散モデルの再利用
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation
January 28, 2025
著者: Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
cs.AI
要旨
最近のテキストや単一の画像からの3Dコンテンツ生成の進歩は、高品質な3Dデータセットの制約や2Dマルチビュー生成からの不整合に苦しんでいます。私たちは、DiffSplatという新しい3D生成フレームワークを紹介します。このフレームワークは、大規模なテキストから画像への拡散モデルを制御することで、3Dガウススプラットを生成します。これは、従来の3D生成モデルとは異なり、Webスケールの2D事前情報を効果的に活用しつつ、統一されたモデルで3Dの一貫性を維持します。トレーニングを始めるために、軽量な再構築モデルが提案され、スケーラブルなデータセットのキュレーションのために即座にマルチビューのガウススプラットグリッドを生成します。これらのグリッドに対する通常の拡散損失とともに、任意のビュー間で3Dの整合性を促進するために3Dレンダリング損失が導入されます。画像拡散モデルとの互換性により、画像生成のための多くの技術を3D領域にシームレスに適応させることが可能です。包括的な実験により、DiffSplatがテキストおよび画像条件付き生成タスクおよびその応用において優れていることが示されます。徹底的な削減研究により、各重要な設計選択の効果を検証し、基礎メカニズムに対する洞察が提供されます。
English
Recent advancements in 3D content generation from text or a single image
struggle with limited high-quality 3D datasets and inconsistency from 2D
multi-view generation. We introduce DiffSplat, a novel 3D generative framework
that natively generates 3D Gaussian splats by taming large-scale text-to-image
diffusion models. It differs from previous 3D generative models by effectively
utilizing web-scale 2D priors while maintaining 3D consistency in a unified
model. To bootstrap the training, a lightweight reconstruction model is
proposed to instantly produce multi-view Gaussian splat grids for scalable
dataset curation. In conjunction with the regular diffusion loss on these
grids, a 3D rendering loss is introduced to facilitate 3D coherence across
arbitrary views. The compatibility with image diffusion models enables seamless
adaptions of numerous techniques for image generation to the 3D realm.
Extensive experiments reveal the superiority of DiffSplat in text- and
image-conditioned generation tasks and downstream applications. Thorough
ablation studies validate the efficacy of each critical design choice and
provide insights into the underlying mechanism.