Forma del Movimento: Ricostruzione 4D da un Singolo Video
Shape of Motion: 4D Reconstruction from a Single Video
July 18, 2024
Autori: Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
cs.AI
Abstract
La ricostruzione dinamica monoculare è un problema di visione complesso e di lunga data a causa della natura altamente mal posta del compito. Gli approcci esistenti sono limitati in quanto dipendono da modelli, sono efficaci solo in scene quasi statiche o non riescono a modellare esplicitamente il movimento 3D. In questo lavoro, introduciamo un metodo in grado di ricostruire scene dinamiche generiche, caratterizzate da un movimento 3D esplicito e di lunga durata, a partire da video monoculari acquisiti casualmente. Affrontiamo la natura sottodeterminata del problema con due intuizioni chiave: in primo luogo, sfruttiamo la struttura a bassa dimensionalità del movimento 3D rappresentando il movimento della scena con un insieme compatto di basi di movimento SE3. Il movimento di ciascun punto è espresso come una combinazione lineare di queste basi, facilitando una decomposizione soft della scena in più gruppi in movimento rigido. In secondo luogo, utilizziamo un insieme completo di prior guidati dai dati, inclusi mappe di profondità monoculari e tracce 2D a lungo raggio, e sviluppiamo un metodo per consolidare efficacemente questi segnali di supervisione rumorosi, ottenendo una rappresentazione globalmente coerente della scena dinamica. Gli esperimenti dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia sia per la stima del movimento 3D/2D a lungo raggio che per la sintesi di nuove viste su scene dinamiche. Pagina del progetto: https://shape-of-motion.github.io/
English
Monocular dynamic reconstruction is a challenging and long-standing vision
problem due to the highly ill-posed nature of the task. Existing approaches are
limited in that they either depend on templates, are effective only in
quasi-static scenes, or fail to model 3D motion explicitly. In this work, we
introduce a method capable of reconstructing generic dynamic scenes, featuring
explicit, full-sequence-long 3D motion, from casually captured monocular
videos. We tackle the under-constrained nature of the problem with two key
insights: First, we exploit the low-dimensional structure of 3D motion by
representing scene motion with a compact set of SE3 motion bases. Each point's
motion is expressed as a linear combination of these bases, facilitating soft
decomposition of the scene into multiple rigidly-moving groups. Second, we
utilize a comprehensive set of data-driven priors, including monocular depth
maps and long-range 2D tracks, and devise a method to effectively consolidate
these noisy supervisory signals, resulting in a globally consistent
representation of the dynamic scene. Experiments show that our method achieves
state-of-the-art performance for both long-range 3D/2D motion estimation and
novel view synthesis on dynamic scenes. Project Page:
https://shape-of-motion.github.io/