VideoRFSplat: 柔軟なポーズとマルチビュー共同モデリングによるシーンレベルのテキストから3Dガウススプラッティングへの直接生成

要旨

私たちは、ビデオ生成モデルを活用して現実世界の無境界シーンに対するリアルな3Dガウススプラッティング（3DGS）を生成する、直接的なテキストから3DへのモデルであるVideoRFSplatを提案します。多様なカメラポーズと無境界の空間範囲を生成しつつ、任意のテキストプロンプトへの汎化を確保するために、従来の手法では2D生成モデルを微調整してカメラポーズとマルチビュー画像を共同でモデル化していました。しかし、これらの手法は、モダリティギャップのために2D生成モデルを共同モデル化に拡張する際に不安定さを抱えており、訓練と推論を安定させるために追加のモデルが必要でした。本研究では、ビデオ生成モデルを微調整する際にマルチビュー画像とカメラポーズを共同でモデル化するためのアーキテクチャとサンプリング戦略を提案します。私たちの核心となるアイデアは、事前訓練されたビデオ生成モデルに専用のポーズ生成モデルをコミュニケーションブロックを介して接続するデュアルストリームアーキテクチャであり、マルチビュー画像とカメラポーズを別々のストリームを通じて生成します。この設計により、ポーズと画像のモダリティ間の干渉が減少します。さらに、マルチビュー画像よりもカメラポーズを高速にノイズ除去する非同期サンプリング戦略を提案し、迅速にノイズ除去されたポーズがマルチビュー生成を条件付けることで、相互の曖昧さを減少させ、クロスモーダル一貫性を向上させます。複数の大規模な現実世界データセット（RealEstate10K、MVImgNet、DL3DV-10K、ACID）で訓練されたVideoRFSplatは、スコア蒸留サンプリングによる事後精製に大きく依存する既存のテキストから3D直接生成手法を上回り、そのような精製なしで優れた結果を達成します。

English

We propose VideoRFSplat, a direct text-to-3D model leveraging a video generation model to generate realistic 3D Gaussian Splatting (3DGS) for unbounded real-world scenes. To generate diverse camera poses and unbounded spatial extent of real-world scenes, while ensuring generalization to arbitrary text prompts, previous methods fine-tune 2D generative models to jointly model camera poses and multi-view images. However, these methods suffer from instability when extending 2D generative models to joint modeling due to the modality gap, which necessitates additional models to stabilize training and inference. In this work, we propose an architecture and a sampling strategy to jointly model multi-view images and camera poses when fine-tuning a video generation model. Our core idea is a dual-stream architecture that attaches a dedicated pose generation model alongside a pre-trained video generation model via communication blocks, generating multi-view images and camera poses through separate streams. This design reduces interference between the pose and image modalities. Additionally, we propose an asynchronous sampling strategy that denoises camera poses faster than multi-view images, allowing rapidly denoised poses to condition multi-view generation, reducing mutual ambiguity and enhancing cross-modal consistency. Trained on multiple large-scale real-world datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms existing text-to-3D direct generation methods that heavily depend on post-hoc refinement via score distillation sampling, achieving superior results without such refinement.

VideoRFSplat: 柔軟なポーズとマルチビュー共同モデリングによるシーンレベルのテキストから3Dガウススプラッティングへの直接生成

VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling

要旨

Support