ChatPaper.aiChatPaper

GFlow: Recuperação do Mundo 4D a partir de Vídeo Monocular

GFlow: Recovering 4D World from Monocular Video

May 28, 2024
Autores: Shizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang
cs.AI

Resumo

Reconstruir cenas 4D a partir de entradas de vídeo é uma tarefa crucial, porém desafiadora. Métodos convencionais geralmente dependem de suposições como entradas de vídeo multi-visão, parâmetros de câmera conhecidos ou cenas estáticas, todas as quais normalmente estão ausentes em cenários do mundo real. Neste artigo, relaxamos todas essas restrições e abordamos uma tarefa altamente ambiciosa, porém prática, que denominamos AnyV4D: assumimos que apenas um vídeo monocular está disponível, sem qualquer parâmetro de câmera como entrada, e nosso objetivo é recuperar o mundo 4D dinâmico juntamente com as poses da câmera. Para isso, introduzimos o GFlow, um novo framework que utiliza apenas priors 2D (profundidade e fluxo óptico) para elevar um vídeo (3D) a uma representação explícita 4D, envolvendo um fluxo de splatting Gaussiano através do espaço e do tempo. O GFlow primeiro agrupa a cena em partes estáticas e móveis, em seguida, aplica um processo de otimização sequencial que otimiza as poses da câmera e a dinâmica dos pontos Gaussianos 3D com base nos priors 2D e no agrupamento da cena, garantindo fidelidade entre pontos vizinhos e movimento suave entre os quadros. Como cenas dinâmicas sempre introduzem novos conteúdos, também propomos uma nova estratégia de densificação pixel a pixel para pontos Gaussianos, a fim de integrar novos conteúdos visuais. Além disso, o GFlow transcende os limites da mera reconstrução 4D; ele também permite o rastreamento de qualquer ponto ao longo dos quadros sem a necessidade de treinamento prévio e segmenta objetos em movimento da cena de forma não supervisionada. Adicionalmente, as poses da câmera de cada quadro podem ser derivadas do GFlow, permitindo a renderização de novas visões de uma cena de vídeo através da alteração da pose da câmera. Ao empregar a representação explícita, podemos facilmente realizar edições em nível de cena ou de objeto conforme desejado, destacando sua versatilidade e poder. Visite nosso site do projeto em: https://littlepure2333.github.io/GFlow
English
Reconstructing 4D scenes from video inputs is a crucial yet challenging task. Conventional methods usually rely on the assumptions of multi-view video inputs, known camera parameters, or static scenes, all of which are typically absent under in-the-wild scenarios. In this paper, we relax all these constraints and tackle a highly ambitious but practical task, which we termed as AnyV4D: we assume only one monocular video is available without any camera parameters as input, and we aim to recover the dynamic 4D world alongside the camera poses. To this end, we introduce GFlow, a new framework that utilizes only 2D priors (depth and optical flow) to lift a video (3D) to a 4D explicit representation, entailing a flow of Gaussian splatting through space and time. GFlow first clusters the scene into still and moving parts, then applies a sequential optimization process that optimizes camera poses and the dynamics of 3D Gaussian points based on 2D priors and scene clustering, ensuring fidelity among neighboring points and smooth movement across frames. Since dynamic scenes always introduce new content, we also propose a new pixel-wise densification strategy for Gaussian points to integrate new visual content. Moreover, GFlow transcends the boundaries of mere 4D reconstruction; it also enables tracking of any points across frames without the need for prior training and segments moving objects from the scene in an unsupervised way. Additionally, the camera poses of each frame can be derived from GFlow, allowing for rendering novel views of a video scene through changing camera pose. By employing the explicit representation, we may readily conduct scene-level or object-level editing as desired, underscoring its versatility and power. Visit our project website at: https://littlepure2333.github.io/GFlow
PDF173December 12, 2024