InstantSplat: 40秒で実現する無制限スパースビュー・ポーズフリーのガウススプラッティング
InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds
March 29, 2024
著者: Zhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang
cs.AI
要旨
新規視点合成(NVS)は3Dコンピュータビジョンにおいて大きな進展を遂げてきたが、通常、密な視点からのカメラの内部パラメータと外部パラメータの初期推定を必要とします。この前処理は通常、Structure-from-Motion(SfM)パイプラインを通じて行われますが、この手順は遅く、信頼性が低い場合があり、特にマッチングされた特徴が不足している疎視点シナリオでは正確な再構築が困難です。本研究では、点ベース表現(例:3D Gaussian Splatting, 3D-GS)の強みとエンドツーエンドの密ステレオモデル(DUSt3R)を統合し、ポーズフリーおよび疎視点の課題を含む制約のない設定下でのNVSにおける複雑で未解決の問題に取り組みます。我々のフレームワーク、InstantSplatは、密ステレオ事前情報と3D-GSを統合し、疎視点かつポーズフリーの画像から大規模シーンの3Dガウシアンを1分未満で構築します。具体的には、InstantSplatは、事前に訓練された密ステレオパイプラインから得られたグローバルに整列された3Dポイントマップを利用して、すべての訓練視点における初期シーン構造とカメラパラメータを迅速に確立するCoarse Geometric Initialization(CGI)モジュールを含みます。これに続いて、Fast 3D-Gaussian Optimization(F-3DGO)モジュールが、3Dガウシアンの属性と初期化されたポーズをポーズ正則化とともに共同で最適化します。大規模な屋外データセットTanks & Templesで実施された実験により、InstantSplatはSSIMを32%向上させると同時に、Absolute Trajectory Error(ATE)を80%削減することが示されました。これにより、InstantSplatはポーズフリーおよび疎視点条件を含むシナリオにおける有効なソリューションとして確立されました。プロジェクトページ:instantsplat.github.io。
English
While novel view synthesis (NVS) has made substantial progress in 3D computer
vision, it typically requires an initial estimation of camera intrinsics and
extrinsics from dense viewpoints. This pre-processing is usually conducted via
a Structure-from-Motion (SfM) pipeline, a procedure that can be slow and
unreliable, particularly in sparse-view scenarios with insufficient matched
features for accurate reconstruction. In this work, we integrate the strengths
of point-based representations (e.g., 3D Gaussian Splatting, 3D-GS) with
end-to-end dense stereo models (DUSt3R) to tackle the complex yet unresolved
issues in NVS under unconstrained settings, which encompasses pose-free and
sparse view challenges. Our framework, InstantSplat, unifies dense stereo
priors with 3D-GS to build 3D Gaussians of large-scale scenes from sparseview &
pose-free images in less than 1 minute. Specifically, InstantSplat comprises a
Coarse Geometric Initialization (CGI) module that swiftly establishes a
preliminary scene structure and camera parameters across all training views,
utilizing globally-aligned 3D point maps derived from a pre-trained dense
stereo pipeline. This is followed by the Fast 3D-Gaussian Optimization (F-3DGO)
module, which jointly optimizes the 3D Gaussian attributes and the initialized
poses with pose regularization. Experiments conducted on the large-scale
outdoor Tanks & Temples datasets demonstrate that InstantSplat significantly
improves SSIM (by 32%) while concurrently reducing Absolute Trajectory Error
(ATE) by 80%. These establish InstantSplat as a viable solution for scenarios
involving posefree and sparse-view conditions. Project page:
instantsplat.github.io.Summary
AI-Generated Summary