Forme du mouvement : Reconstruction 4D à partir d'une seule vidéo
Shape of Motion: 4D Reconstruction from a Single Video
July 18, 2024
Auteurs: Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
cs.AI
Résumé
La reconstruction dynamique monoculaire constitue un problème de vision par ordinateur complexe et de longue date, en raison de la nature hautement mal posée de la tâche. Les approches existantes présentent des limitations, car elles dépendent soit de modèles prédéfinis, sont efficaces uniquement dans des scènes quasi-statiques, ou échouent à modéliser explicitement le mouvement 3D. Dans ce travail, nous introduisons une méthode capable de reconstruire des scènes dynamiques génériques, mettant en avant un mouvement 3D explicite et couvrant toute la séquence, à partir de vidéos monoculaires capturées de manière informelle. Nous abordons la nature sous-contrainte du problème grâce à deux idées clés : Premièrement, nous exploitons la structure de faible dimension du mouvement 3D en représentant le mouvement de la scène avec un ensemble compact de bases de mouvement SE3. Le mouvement de chaque point est exprimé comme une combinaison linéaire de ces bases, facilitant une décomposition douce de la scène en plusieurs groupes se déplaçant de manière rigide. Deuxièmement, nous utilisons un ensemble complet de connaissances a priori basées sur les données, incluant des cartes de profondeur monoculaires et des trajectoires 2D à long terme, et concevons une méthode pour consolider efficacement ces signaux de supervision bruités, aboutissant à une représentation globalement cohérente de la scène dynamique. Les expériences montrent que notre méthode atteint des performances de pointe à la fois pour l'estimation du mouvement 3D/2D à long terme et pour la synthèse de nouvelles vues sur des scènes dynamiques. Page du projet : https://shape-of-motion.github.io/
English
Monocular dynamic reconstruction is a challenging and long-standing vision
problem due to the highly ill-posed nature of the task. Existing approaches are
limited in that they either depend on templates, are effective only in
quasi-static scenes, or fail to model 3D motion explicitly. In this work, we
introduce a method capable of reconstructing generic dynamic scenes, featuring
explicit, full-sequence-long 3D motion, from casually captured monocular
videos. We tackle the under-constrained nature of the problem with two key
insights: First, we exploit the low-dimensional structure of 3D motion by
representing scene motion with a compact set of SE3 motion bases. Each point's
motion is expressed as a linear combination of these bases, facilitating soft
decomposition of the scene into multiple rigidly-moving groups. Second, we
utilize a comprehensive set of data-driven priors, including monocular depth
maps and long-range 2D tracks, and devise a method to effectively consolidate
these noisy supervisory signals, resulting in a globally consistent
representation of the dynamic scene. Experiments show that our method achieves
state-of-the-art performance for both long-range 3D/2D motion estimation and
novel view synthesis on dynamic scenes. Project Page:
https://shape-of-motion.github.io/Summary
AI-Generated Summary