ChatPaper.aiChatPaper

SplatFlow: 3次元ガウススプラッティングのためのマルチビュー補正フローモデル統合

SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

November 25, 2024
著者: Hyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
cs.AI

要旨

テキストベースの3Dシーンの生成と編集は、直感的なユーザーインタラクションを通じてコンテンツ作成を効率化するために重要な潜在能力を持っています。最近の進歩では、高品質かつリアルタイムなレンダリングのために3Dガウススプラッティング(3DGS)を活用していますが、既存の方法はしばしば専門化され、タスクに焦点を当てており、生成と編集の両方のための統一されたフレームワークが欠如しています。本論文では、このギャップに対処する包括的なフレームワークであるSplatFlowを紹介します。SplatFlowには、2つの主要なコンポーネントが含まれており、それは、マルチビューの整流フロー(RF)モデルとガウススプラッティングデコーダ(GSDecoder)です。マルチビューRFモデルは潜在空間で動作し、テキストプロンプトに応じて、多視点画像、深度、およびカメラの姿勢を同時に生成することで、実世界の設定における多様なシーンスケールや複雑なカメラ軌跡といった課題に対処します。その後、GSDecoderはこれらの潜在的な出力を効率的に3DGS表現に変換するためのフィードフォワード3DGS手法を介して翻訳します。トレーニングフリーの逆変換およびインペインティング技術を活用することで、SplatFlowはシームレスな3DGS編集を可能にし、追加の複雑なパイプラインを必要とせずに、オブジェクトの編集、新しいビューの合成、カメラの姿勢推定など、幅広い3Dタスクを統一されたフレームワーク内でサポートします。MVImgNetおよびDL3DV-7KデータセットでSplatFlowの能力を検証し、さまざまな3D生成、編集、およびインペインティングベースのタスクにおけるその汎用性と効果を示します。
English
Text-based generation and editing of 3D scenes hold significant potential for streamlining content creation through intuitive user interactions. While recent advances leverage 3D Gaussian Splatting (3DGS) for high-fidelity and real-time rendering, existing methods are often specialized and task-focused, lacking a unified framework for both generation and editing. In this paper, we introduce SplatFlow, a comprehensive framework that addresses this gap by enabling direct 3DGS generation and editing. SplatFlow comprises two main components: a multi-view rectified flow (RF) model and a Gaussian Splatting Decoder (GSDecoder). The multi-view RF model operates in latent space, generating multi-view images, depths, and camera poses simultaneously, conditioned on text prompts, thus addressing challenges like diverse scene scales and complex camera trajectories in real-world settings. Then, the GSDecoder efficiently translates these latent outputs into 3DGS representations through a feed-forward 3DGS method. Leveraging training-free inversion and inpainting techniques, SplatFlow enables seamless 3DGS editing and supports a broad range of 3D tasks-including object editing, novel view synthesis, and camera pose estimation-within a unified framework without requiring additional complex pipelines. We validate SplatFlow's capabilities on the MVImgNet and DL3DV-7K datasets, demonstrating its versatility and effectiveness in various 3D generation, editing, and inpainting-based tasks.

Summary

AI-Generated Summary

PDF122November 26, 2024