FreeSplatter:スパースビュー3D再構築のためのポーズフリーガウススプラッティング
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction
December 12, 2024
著者: Jiale Xu, Shenghua Gao, Ying Shan
cs.AI
要旨
従来の疎な視点再構築モデルは、正確な既知のカメラポーズに大きく依存しています。ただし、疎な視点画像からカメラの外部パラメータと内部パラメータを導出することは、著しい課題を提起します。本研究では、非常にスケーラブルで、未補正の疎な視点画像から高品質な3Dガウス分布を生成し、わずか数秒でそのカメラパラメータを回復することができる前方伝播型再構築フレームワークであるFreeSplatterを提案します。FreeSplatterは、シーケンシャルなセルフアテンションブロックからなるスムーズなトランスフォーマーアーキテクチャに基づいて構築されており、複数の視点画像トークン間で情報交換を促進し、それらをピクセル単位の3Dガウス原子にデコードします。予測されたガウス原子は統一された基準フレームに配置されており、高忠実度な3Dモデリングと市販のソルバーを用いた瞬時のカメラパラメータ推定が可能となっています。オブジェクト中心とシーンレベルの両方の再構築に対応するために、FreeSplatterの2つのモデルバリアントを幅広いデータセットでトレーニングしています。両シナリオにおいて、FreeSplatterは再構築品質と姿勢推定の精度において、最先端のベースラインを上回る性能を発揮します。さらに、テキスト/画像から3Dコンテンツの作成などの下流アプリケーションの生産性向上におけるFreeSplatterの潜在能力を紹介しています。
English
Existing sparse-view reconstruction models heavily rely on accurate known
camera poses. However, deriving camera extrinsics and intrinsics from
sparse-view images presents significant challenges. In this work, we present
FreeSplatter, a highly scalable, feed-forward reconstruction framework capable
of generating high-quality 3D Gaussians from uncalibrated sparse-view images
and recovering their camera parameters in mere seconds. FreeSplatter is built
upon a streamlined transformer architecture, comprising sequential
self-attention blocks that facilitate information exchange among multi-view
image tokens and decode them into pixel-wise 3D Gaussian primitives. The
predicted Gaussian primitives are situated in a unified reference frame,
allowing for high-fidelity 3D modeling and instant camera parameter estimation
using off-the-shelf solvers. To cater to both object-centric and scene-level
reconstruction, we train two model variants of FreeSplatter on extensive
datasets. In both scenarios, FreeSplatter outperforms state-of-the-art
baselines in terms of reconstruction quality and pose estimation accuracy.
Furthermore, we showcase FreeSplatter's potential in enhancing the productivity
of downstream applications, such as text/image-to-3D content creation.Summary
AI-Generated Summary