GFlow: 단안 비디오에서 4D 세계 복원하기
GFlow: Recovering 4D World from Monocular Video
May 28, 2024
저자: Shizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang
cs.AI
초록
비디오 입력으로부터 4D 장면을 재구성하는 것은 중요하면서도 도전적인 과제입니다. 기존의 방법들은 일반적으로 다중 시점 비디오 입력, 알려진 카메라 파라미터, 또는 정적 장면과 같은 가정에 의존하는데, 이러한 조건들은 실제 환경에서는 대부분 존재하지 않습니다. 본 논문에서는 이러한 제약 조건을 완화하고, 우리가 AnyV4D라고 명명한 매우 야심적이면서도 실용적인 과제를 해결하고자 합니다: 단일 모노큘러 비디오만을 입력으로 사용하며 카메라 파라미터도 알려져 있지 않은 상황에서, 동적인 4D 세계와 카메라 포즈를 복원하는 것을 목표로 합니다. 이를 위해, 우리는 GFlow라는 새로운 프레임워크를 소개합니다. GFlow는 2D 사전 정보(깊이와 광학 흐름)만을 활용하여 비디오(3D)를 4D 명시적 표현으로 변환하며, 공간과 시간을 통해 가우시안 스플래팅의 흐름을 포함합니다. GFlow는 먼저 장면을 정적 부분과 동적 부분으로 클러스터링한 후, 2D 사전 정보와 장면 클러스터링을 기반으로 카메라 포즈와 3D 가우시안 포인트의 동역학을 순차적으로 최적화하여 인접한 포인트 간의 정확성과 프레임 간의 부드러운 움직임을 보장합니다. 동적 장면은 항상 새로운 콘텐츠를 도입하기 때문에, 우리는 새로운 시각적 콘텐츠를 통합하기 위해 가우시안 포인트에 대한 새로운 픽셀 단위 밀도화 전략도 제안합니다. 더 나아가, GFlow는 단순한 4D 재구성의 한계를 넘어, 사전 훈련 없이도 프레임 간의 임의의 포인트를 추적하고, 비지도 방식으로 장면에서 움직이는 객체를 분할할 수 있습니다. 또한, 각 프레임의 카메라 포즈는 GFlow에서 도출될 수 있어, 카메라 포즈를 변경하여 비디오 장면의 새로운 뷰를 렌더링할 수 있습니다. 명시적 표현을 사용함으로써, 우리는 원하는 대로 장면 수준 또는 객체 수준의 편집을 손쉽게 수행할 수 있으며, 이는 GFlow의 다양성과 강력함을 보여줍니다. 프로젝트 웹사이트를 방문해 보세요: https://littlepure2333.github.io/GFlow
English
Reconstructing 4D scenes from video inputs is a crucial yet challenging task.
Conventional methods usually rely on the assumptions of multi-view video
inputs, known camera parameters, or static scenes, all of which are typically
absent under in-the-wild scenarios. In this paper, we relax all these
constraints and tackle a highly ambitious but practical task, which we termed
as AnyV4D: we assume only one monocular video is available without any camera
parameters as input, and we aim to recover the dynamic 4D world alongside the
camera poses. To this end, we introduce GFlow, a new framework that utilizes
only 2D priors (depth and optical flow) to lift a video (3D) to a 4D explicit
representation, entailing a flow of Gaussian splatting through space and time.
GFlow first clusters the scene into still and moving parts, then applies a
sequential optimization process that optimizes camera poses and the dynamics of
3D Gaussian points based on 2D priors and scene clustering, ensuring fidelity
among neighboring points and smooth movement across frames. Since dynamic
scenes always introduce new content, we also propose a new pixel-wise
densification strategy for Gaussian points to integrate new visual content.
Moreover, GFlow transcends the boundaries of mere 4D reconstruction; it also
enables tracking of any points across frames without the need for prior
training and segments moving objects from the scene in an unsupervised way.
Additionally, the camera poses of each frame can be derived from GFlow,
allowing for rendering novel views of a video scene through changing camera
pose. By employing the explicit representation, we may readily conduct
scene-level or object-level editing as desired, underscoring its versatility
and power. Visit our project website at: https://littlepure2333.github.io/GFlowSummary
AI-Generated Summary