Instant4D: 数分での4Dガウススプラッティング
Instant4D: 4D Gaussian Splatting in Minutes
October 1, 2025
著者: Zhanpeng Luo, Haoxi Ran, Li Lu
cs.AI
要旨
動的ビュー合成は大きな進展を遂げてきたが、未校正のカジュアルなビデオからシーンを再構築することは、最適化の遅さや複雑なパラメータ推定のため依然として課題となっている。本研究では、校正されたカメラや深度センサーを必要とせず、数分以内にカジュアルなビデオシーケンスを効率的に処理するために、ネイティブな4D表現を活用したモノクローム再構築システム「Instant4D」を提案する。本手法は、深層視覚SLAMによる幾何学的復元から始まり、シーン表現を最適化するためのグリッドプルーニングを経る。この設計により、幾何学的整合性を維持しつつ冗長性を大幅に削減し、モデルサイズを元の10%以下に縮小する。時間的ダイナミクスを効率的に扱うため、簡素化された4Dガウス表現を導入し、30倍の高速化を実現し、トレーニング時間を2分以内に短縮しながら、複数のベンチマークで競争力のある性能を維持する。本手法は、Dycheckデータセット上の単一ビデオまたは典型的な200フレームのビデオを10分以内に再構築する。さらに、実世界のビデオに本モデルを適用し、その汎用性を示す。プロジェクトのウェブサイトはhttps://instant4d.github.io/で公開されている。
English
Dynamic view synthesis has seen significant advances, yet reconstructing
scenes from uncalibrated, casual video remains challenging due to slow
optimization and complex parameter estimation. In this work, we present
Instant4D, a monocular reconstruction system that leverages native 4D
representation to efficiently process casual video sequences within minutes,
without calibrated cameras or depth sensors. Our method begins with geometric
recovery through deep visual SLAM, followed by grid pruning to optimize scene
representation. Our design significantly reduces redundancy while maintaining
geometric integrity, cutting model size to under 10% of its original footprint.
To handle temporal dynamics efficiently, we introduce a streamlined 4D Gaussian
representation, achieving a 30x speed-up and reducing training time to within
two minutes, while maintaining competitive performance across several
benchmarks. Our method reconstruct a single video within 10 minutes on the
Dycheck dataset or for a typical 200-frame video. We further apply our model to
in-the-wild videos, showcasing its generalizability. Our project website is
published at https://instant4d.github.io/.