VideoRFSplat: 柔軟なポーズとマルチビュー共同モデリングによるシーンレベルのテキストから3Dガウススプラッティングへの直接生成
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling
March 20, 2025
著者: Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim
cs.AI
要旨
私たちは、ビデオ生成モデルを活用して現実世界の無境界シーンに対するリアルな3Dガウススプラッティング(3DGS)を生成する、直接的なテキストから3DへのモデルであるVideoRFSplatを提案します。多様なカメラポーズと無境界の空間範囲を生成しつつ、任意のテキストプロンプトへの汎化を確保するために、従来の手法では2D生成モデルを微調整してカメラポーズとマルチビュー画像を共同でモデル化していました。しかし、これらの手法は、モダリティギャップのために2D生成モデルを共同モデル化に拡張する際に不安定さを抱えており、訓練と推論を安定させるために追加のモデルが必要でした。本研究では、ビデオ生成モデルを微調整する際にマルチビュー画像とカメラポーズを共同でモデル化するためのアーキテクチャとサンプリング戦略を提案します。私たちの核心となるアイデアは、事前訓練されたビデオ生成モデルに専用のポーズ生成モデルをコミュニケーションブロックを介して接続するデュアルストリームアーキテクチャであり、マルチビュー画像とカメラポーズを別々のストリームを通じて生成します。この設計により、ポーズと画像のモダリティ間の干渉が減少します。さらに、マルチビュー画像よりもカメラポーズを高速にノイズ除去する非同期サンプリング戦略を提案し、迅速にノイズ除去されたポーズがマルチビュー生成を条件付けることで、相互の曖昧さを減少させ、クロスモーダル一貫性を向上させます。複数の大規模な現実世界データセット(RealEstate10K、MVImgNet、DL3DV-10K、ACID)で訓練されたVideoRFSplatは、スコア蒸留サンプリングによる事後精製に大きく依存する既存のテキストから3D直接生成手法を上回り、そのような精製なしで優れた結果を達成します。
English
We propose VideoRFSplat, a direct text-to-3D model leveraging a video
generation model to generate realistic 3D Gaussian Splatting (3DGS) for
unbounded real-world scenes. To generate diverse camera poses and unbounded
spatial extent of real-world scenes, while ensuring generalization to arbitrary
text prompts, previous methods fine-tune 2D generative models to jointly model
camera poses and multi-view images. However, these methods suffer from
instability when extending 2D generative models to joint modeling due to the
modality gap, which necessitates additional models to stabilize training and
inference. In this work, we propose an architecture and a sampling strategy to
jointly model multi-view images and camera poses when fine-tuning a video
generation model. Our core idea is a dual-stream architecture that attaches a
dedicated pose generation model alongside a pre-trained video generation model
via communication blocks, generating multi-view images and camera poses through
separate streams. This design reduces interference between the pose and image
modalities. Additionally, we propose an asynchronous sampling strategy that
denoises camera poses faster than multi-view images, allowing rapidly denoised
poses to condition multi-view generation, reducing mutual ambiguity and
enhancing cross-modal consistency. Trained on multiple large-scale real-world
datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat outperforms
existing text-to-3D direct generation methods that heavily depend on post-hoc
refinement via score distillation sampling, achieving superior results without
such refinement.Summary
AI-Generated Summary