GFlow: Herstellen van de 4D-wereld vanuit monovideo
GFlow: Recovering 4D World from Monocular Video
May 28, 2024
Auteurs: Shizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang
cs.AI
Samenvatting
Het reconstrueren van 4D-scènes uit video-invoer is een cruciale maar uitdagende taak.
Conventionele methoden baseren zich meestal op de aannames van multi-view video-invoer, bekende cameraparameters of statische scènes, die allemaal typisch afwezig zijn in realistische scenario's. In dit artikel versoepelen we al deze beperkingen en pakken we een zeer ambitieuze maar praktische taak aan, die we AnyV4D hebben genoemd: we gaan ervan uit dat slechts één monoscopische video beschikbaar is zonder enige cameraparameters als invoer, en we streven ernaar om de dynamische 4D-wereld samen met de cameraposities te herstellen. Hiertoe introduceren we GFlow, een nieuw framework dat alleen 2D-priors (diepte en optische flow) gebruikt om een video (3D) om te zetten in een expliciete 4D-representatie, wat een flow van Gaussische splatting door ruimte en tijd inhoudt. GFlow clustert eerst de scène in stilstaande en bewegende delen, en past vervolgens een sequentiële optimalisatieproces toe dat cameraposities en de dynamiek van 3D Gaussische punten optimaliseert op basis van 2D-priors en scèneclustering, waardoor de trouw tussen naburige punten en vloeiende beweging tussen frames wordt gewaarborgd. Omdat dynamische scènes altijd nieuwe inhoud introduceren, stellen we ook een nieuwe pixelgewijze verdichtingsstrategie voor Gaussische punten voor om nieuwe visuele inhoud te integreren. Bovendien gaat GFlow verder dan de grenzen van louter 4D-reconstructie; het maakt ook het volgen van willekeurige punten tussen frames mogelijk zonder de noodzaak van voorafgaande training en segmenteert bewegende objecten uit de scène op een onbewaakte manier. Daarnaast kunnen de cameraposities van elk frame worden afgeleid uit GFlow, wat het mogelijk maakt om nieuwe weergaven van een videoscène te renderen door de camerapositie te veranderen. Door gebruik te maken van de expliciete representatie, kunnen we gemakkelijk scène- of objectniveau-bewerkingen uitvoeren zoals gewenst, wat de veelzijdigheid en kracht ervan onderstreept. Bezoek onze projectwebsite op: https://littlepure2333.github.io/GFlow
English
Reconstructing 4D scenes from video inputs is a crucial yet challenging task.
Conventional methods usually rely on the assumptions of multi-view video
inputs, known camera parameters, or static scenes, all of which are typically
absent under in-the-wild scenarios. In this paper, we relax all these
constraints and tackle a highly ambitious but practical task, which we termed
as AnyV4D: we assume only one monocular video is available without any camera
parameters as input, and we aim to recover the dynamic 4D world alongside the
camera poses. To this end, we introduce GFlow, a new framework that utilizes
only 2D priors (depth and optical flow) to lift a video (3D) to a 4D explicit
representation, entailing a flow of Gaussian splatting through space and time.
GFlow first clusters the scene into still and moving parts, then applies a
sequential optimization process that optimizes camera poses and the dynamics of
3D Gaussian points based on 2D priors and scene clustering, ensuring fidelity
among neighboring points and smooth movement across frames. Since dynamic
scenes always introduce new content, we also propose a new pixel-wise
densification strategy for Gaussian points to integrate new visual content.
Moreover, GFlow transcends the boundaries of mere 4D reconstruction; it also
enables tracking of any points across frames without the need for prior
training and segments moving objects from the scene in an unsupervised way.
Additionally, the camera poses of each frame can be derived from GFlow,
allowing for rendering novel views of a video scene through changing camera
pose. By employing the explicit representation, we may readily conduct
scene-level or object-level editing as desired, underscoring its versatility
and power. Visit our project website at: https://littlepure2333.github.io/GFlow