Vorm van Beweging: 4D-reconstructie vanuit een enkele video
Shape of Motion: 4D Reconstruction from a Single Video
July 18, 2024
Auteurs: Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
cs.AI
Samenvatting
Monoculaire dynamische reconstructie is een uitdagend en lang bestaand visieprobleem vanwege de sterk ill-posed aard van de taak. Bestaande benaderingen zijn beperkt doordat ze afhankelijk zijn van sjablonen, alleen effectief zijn in quasi-statische scènes, of er niet in slagen om 3D-beweging expliciet te modelleren. In dit werk introduceren we een methode die in staat is om generieke dynamische scènes te reconstrueren, met expliciete, volledige-sequentie-lange 3D-beweging, vanuit casual vastgelegde monoculaire video's. We pakken het onder-geconstrueerde karakter van het probleem aan met twee belangrijke inzichten: Ten eerste benutten we de laagdimensionale structuur van 3D-beweging door scènebeweging te representeren met een compacte set van SE3-bewegingsbasissen. De beweging van elk punt wordt uitgedrukt als een lineaire combinatie van deze basissen, wat een zachte decompositie van de scène in meerdere rigide bewegende groepen mogelijk maakt. Ten tweede maken we gebruik van een uitgebreide set van data-gedreven priors, waaronder monoculaire dieptekaarten en lange-afstand 2D-tracks, en ontwikkelen we een methode om deze ruisachtige superviserende signalen effectief te consolideren, wat resulteert in een globaal consistente representatie van de dynamische scène. Experimenten tonen aan dat onze methode state-of-the-art prestaties bereikt voor zowel lange-afstand 3D/2D-bewegingsschatting als nieuwe weergavesynthese op dynamische scènes. Projectpagina: https://shape-of-motion.github.io/
English
Monocular dynamic reconstruction is a challenging and long-standing vision
problem due to the highly ill-posed nature of the task. Existing approaches are
limited in that they either depend on templates, are effective only in
quasi-static scenes, or fail to model 3D motion explicitly. In this work, we
introduce a method capable of reconstructing generic dynamic scenes, featuring
explicit, full-sequence-long 3D motion, from casually captured monocular
videos. We tackle the under-constrained nature of the problem with two key
insights: First, we exploit the low-dimensional structure of 3D motion by
representing scene motion with a compact set of SE3 motion bases. Each point's
motion is expressed as a linear combination of these bases, facilitating soft
decomposition of the scene into multiple rigidly-moving groups. Second, we
utilize a comprehensive set of data-driven priors, including monocular depth
maps and long-range 2D tracks, and devise a method to effectively consolidate
these noisy supervisory signals, resulting in a globally consistent
representation of the dynamic scene. Experiments show that our method achieves
state-of-the-art performance for both long-range 3D/2D motion estimation and
novel view synthesis on dynamic scenes. Project Page:
https://shape-of-motion.github.io/