Instant4D: 4D 가우시안 스플래팅을 단 몇 분 만에
Instant4D: 4D Gaussian Splatting in Minutes
October 1, 2025
저자: Zhanpeng Luo, Haoxi Ran, Li Lu
cs.AI
초록
동적 뷰 합성 기술은 상당한 발전을 이루었지만, 캘리브레이션되지 않은 캐주얼 비디오로부터 장면을 재구성하는 것은 느린 최적화와 복잡한 파라미터 추정으로 인해 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 캘리브레이션된 카메라나 깊이 센서 없이도 캐주얼 비디오 시퀀스를 몇 분 내에 효율적으로 처리할 수 있는 네이티브 4D 표현을 활용한 모노큘러 재구성 시스템인 Instant4D를 제안합니다. 우리의 방법은 딥 비주얼 SLAM을 통한 기하학적 복구로 시작하여, 장면 표현을 최적화하기 위한 그리드 프루닝을 수행합니다. 이 설계는 기하학적 무결성을 유지하면서 중복성을 크게 줄여 모델 크기를 원래 크기의 10% 미만으로 줄입니다. 시간적 동역학을 효율적으로 처리하기 위해 간소화된 4D 가우시안 표현을 도입하여 30배의 속도 향상을 달성하고, 여러 벤치마크에서 경쟁력 있는 성능을 유지하면서 학습 시간을 2분 이내로 단축했습니다. 우리의 방법은 Dycheck 데이터셋에서 단일 비디오를 10분 이내에 재구성하거나 일반적인 200프레임 비디오에 대해 재구성합니다. 또한, 우리는 이 모델을 실제 환경의 비디오에 적용하여 일반화 가능성을 입증했습니다. 우리의 프로젝트 웹사이트는 https://instant4d.github.io/에서 확인할 수 있습니다.
English
Dynamic view synthesis has seen significant advances, yet reconstructing
scenes from uncalibrated, casual video remains challenging due to slow
optimization and complex parameter estimation. In this work, we present
Instant4D, a monocular reconstruction system that leverages native 4D
representation to efficiently process casual video sequences within minutes,
without calibrated cameras or depth sensors. Our method begins with geometric
recovery through deep visual SLAM, followed by grid pruning to optimize scene
representation. Our design significantly reduces redundancy while maintaining
geometric integrity, cutting model size to under 10% of its original footprint.
To handle temporal dynamics efficiently, we introduce a streamlined 4D Gaussian
representation, achieving a 30x speed-up and reducing training time to within
two minutes, while maintaining competitive performance across several
benchmarks. Our method reconstruct a single video within 10 minutes on the
Dycheck dataset or for a typical 200-frame video. We further apply our model to
in-the-wild videos, showcasing its generalizability. Our project website is
published at https://instant4d.github.io/.