GFlow : Reconstruction du monde 4D à partir d'une vidéo monoculaire
GFlow: Recovering 4D World from Monocular Video
May 28, 2024
Auteurs: Shizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang
cs.AI
Résumé
La reconstruction de scènes 4D à partir de vidéos est une tâche cruciale mais complexe. Les méthodes conventionnelles reposent généralement sur des hypothèses telles que des entrées vidéo multi-vues, des paramètres de caméra connus ou des scènes statiques, qui sont généralement absentes dans des scénarios réels. Dans cet article, nous relâchons toutes ces contraintes et abordons une tâche ambitieuse mais pratique, que nous avons nommée AnyV4D : nous supposons qu'une seule vidéo monoculaire est disponible sans aucun paramètre de caméra en entrée, et nous visons à reconstruire le monde dynamique 4D ainsi que les poses de la caméra. Pour ce faire, nous introduisons GFlow, un nouveau cadre qui utilise uniquement des informations 2D (profondeur et flux optique) pour transformer une vidéo (3D) en une représentation explicite 4D, impliquant un flux de splatting gaussien à travers l'espace et le temps. GFlow commence par segmenter la scène en parties statiques et mobiles, puis applique un processus d'optimisation séquentielle qui ajuste les poses de la caméra et la dynamique des points gaussiens 3D en fonction des informations 2D et de la segmentation de la scène, garantissant la fidélité entre les points voisins et un mouvement fluide entre les images. Comme les scènes dynamiques introduisent toujours de nouveaux contenus, nous proposons également une nouvelle stratégie de densification pixel par pixel pour les points gaussiens afin d'intégrer de nouveaux contenus visuels. De plus, GFlow transcende les limites de la simple reconstruction 4D ; il permet également de suivre n'importe quel point à travers les images sans nécessiter d'apprentissage préalable et de segmenter les objets mobiles de la scène de manière non supervisée. En outre, les poses de la caméra pour chaque image peuvent être déduites de GFlow, permettant de générer de nouvelles vues d'une scène vidéo en modifiant la pose de la caméra. En utilisant cette représentation explicite, nous pouvons facilement effectuer des modifications au niveau de la scène ou des objets selon les besoins, soulignant ainsi sa polyvalence et sa puissance. Visitez notre site web de projet à : https://littlepure2333.github.io/GFlow
English
Reconstructing 4D scenes from video inputs is a crucial yet challenging task.
Conventional methods usually rely on the assumptions of multi-view video
inputs, known camera parameters, or static scenes, all of which are typically
absent under in-the-wild scenarios. In this paper, we relax all these
constraints and tackle a highly ambitious but practical task, which we termed
as AnyV4D: we assume only one monocular video is available without any camera
parameters as input, and we aim to recover the dynamic 4D world alongside the
camera poses. To this end, we introduce GFlow, a new framework that utilizes
only 2D priors (depth and optical flow) to lift a video (3D) to a 4D explicit
representation, entailing a flow of Gaussian splatting through space and time.
GFlow first clusters the scene into still and moving parts, then applies a
sequential optimization process that optimizes camera poses and the dynamics of
3D Gaussian points based on 2D priors and scene clustering, ensuring fidelity
among neighboring points and smooth movement across frames. Since dynamic
scenes always introduce new content, we also propose a new pixel-wise
densification strategy for Gaussian points to integrate new visual content.
Moreover, GFlow transcends the boundaries of mere 4D reconstruction; it also
enables tracking of any points across frames without the need for prior
training and segments moving objects from the scene in an unsupervised way.
Additionally, the camera poses of each frame can be derived from GFlow,
allowing for rendering novel views of a video scene through changing camera
pose. By employing the explicit representation, we may readily conduct
scene-level or object-level editing as desired, underscoring its versatility
and power. Visit our project website at: https://littlepure2333.github.io/GFlowSummary
AI-Generated Summary