GFlow: Recuperação do Mundo 4D a partir de Vídeo Monocular
GFlow: Recovering 4D World from Monocular Video
May 28, 2024
Autores: Shizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang
cs.AI
Resumo
Reconstruir cenas 4D a partir de entradas de vídeo é uma tarefa crucial, porém desafiadora.
Métodos convencionais geralmente dependem de suposições como entradas de vídeo multi-visão,
parâmetros de câmera conhecidos ou cenas estáticas, todas as quais normalmente estão ausentes
em cenários do mundo real. Neste artigo, relaxamos todas essas restrições e abordamos uma
tarefa altamente ambiciosa, porém prática, que denominamos AnyV4D: assumimos que apenas um
vídeo monocular está disponível, sem qualquer parâmetro de câmera como entrada, e nosso
objetivo é recuperar o mundo 4D dinâmico juntamente com as poses da câmera. Para isso,
introduzimos o GFlow, um novo framework que utiliza apenas priors 2D (profundidade e fluxo
óptico) para elevar um vídeo (3D) a uma representação explícita 4D, envolvendo um fluxo de
splatting Gaussiano através do espaço e do tempo. O GFlow primeiro agrupa a cena em partes
estáticas e móveis, em seguida, aplica um processo de otimização sequencial que otimiza as
poses da câmera e a dinâmica dos pontos Gaussianos 3D com base nos priors 2D e no
agrupamento da cena, garantindo fidelidade entre pontos vizinhos e movimento suave entre
os quadros. Como cenas dinâmicas sempre introduzem novos conteúdos, também propomos uma
nova estratégia de densificação pixel a pixel para pontos Gaussianos, a fim de integrar
novos conteúdos visuais. Além disso, o GFlow transcende os limites da mera reconstrução 4D;
ele também permite o rastreamento de qualquer ponto ao longo dos quadros sem a necessidade
de treinamento prévio e segmenta objetos em movimento da cena de forma não supervisionada.
Adicionalmente, as poses da câmera de cada quadro podem ser derivadas do GFlow, permitindo
a renderização de novas visões de uma cena de vídeo através da alteração da pose da câmera.
Ao empregar a representação explícita, podemos facilmente realizar edições em nível de cena
ou de objeto conforme desejado, destacando sua versatilidade e poder. Visite nosso site do
projeto em: https://littlepure2333.github.io/GFlow
English
Reconstructing 4D scenes from video inputs is a crucial yet challenging task.
Conventional methods usually rely on the assumptions of multi-view video
inputs, known camera parameters, or static scenes, all of which are typically
absent under in-the-wild scenarios. In this paper, we relax all these
constraints and tackle a highly ambitious but practical task, which we termed
as AnyV4D: we assume only one monocular video is available without any camera
parameters as input, and we aim to recover the dynamic 4D world alongside the
camera poses. To this end, we introduce GFlow, a new framework that utilizes
only 2D priors (depth and optical flow) to lift a video (3D) to a 4D explicit
representation, entailing a flow of Gaussian splatting through space and time.
GFlow first clusters the scene into still and moving parts, then applies a
sequential optimization process that optimizes camera poses and the dynamics of
3D Gaussian points based on 2D priors and scene clustering, ensuring fidelity
among neighboring points and smooth movement across frames. Since dynamic
scenes always introduce new content, we also propose a new pixel-wise
densification strategy for Gaussian points to integrate new visual content.
Moreover, GFlow transcends the boundaries of mere 4D reconstruction; it also
enables tracking of any points across frames without the need for prior
training and segments moving objects from the scene in an unsupervised way.
Additionally, the camera poses of each frame can be derived from GFlow,
allowing for rendering novel views of a video scene through changing camera
pose. By employing the explicit representation, we may readily conduct
scene-level or object-level editing as desired, underscoring its versatility
and power. Visit our project website at: https://littlepure2333.github.io/GFlow