Geo4D: 기하학적 4D 장면 재구성을 위한 비디오 생성기 활용
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction
April 10, 2025
저자: Zeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi
cs.AI
초록
우리는 동적 장면의 단안 3D 재구성을 위해 비디오 확산 모델을 재활용하는 Geo4D 방법을 소개한다. Geo4D는 이러한 비디오 모델이 포착한 강력한 동적 사전 지식을 활용하여, 합성 데이터만으로도 훈련이 가능하면서도 실제 데이터에 대해 제로샷 방식으로 잘 일반화된다. Geo4D는 점(point), 깊이(depth), 광선(ray) 맵과 같은 여러 보완적인 기하학적 모달리티를 예측한다. 또한, 추론 시점에서 이러한 모달리티와 여러 슬라이딩 윈도우를 정렬 및 융합하기 위해 새로운 다중 모달리티 정렬 알고리즘을 사용함으로써, 긴 비디오의 강건하고 정확한 4D 재구성을 달성한다. 다양한 벤치마크에서 수행된 광범위한 실험 결과, Geo4D는 동적 장면을 처리하도록 설계된 MonST3R와 같은 최신 방법을 포함하여 최첨단 비디오 깊이 추정 방법들을 크게 능가하는 것으로 나타났다.
English
We introduce Geo4D, a method to repurpose video diffusion models for
monocular 3D reconstruction of dynamic scenes. By leveraging the strong dynamic
prior captured by such video models, Geo4D can be trained using only synthetic
data while generalizing well to real data in a zero-shot manner. Geo4D predicts
several complementary geometric modalities, namely point, depth, and ray maps.
It uses a new multi-modal alignment algorithm to align and fuse these
modalities, as well as multiple sliding windows, at inference time, thus
obtaining robust and accurate 4D reconstruction of long videos. Extensive
experiments across multiple benchmarks show that Geo4D significantly surpasses
state-of-the-art video depth estimation methods, including recent methods such
as MonST3R, which are also designed to handle dynamic scenes.Summary
AI-Generated Summary