Forma del Movimiento: Reconstrucción 4D a partir de un Único Video
Shape of Motion: 4D Reconstruction from a Single Video
July 18, 2024
Autores: Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
cs.AI
Resumen
La reconstrucción dinámica monocular es un problema desafiante y de larga data en visión debido a la naturaleza altamente mal planteada de la tarea. Los enfoques existentes están limitados en que dependen de plantillas, son efectivos solo en escenas cuasi estáticas, o no logran modelar explícitamente el movimiento 3D. En este trabajo, presentamos un método capaz de reconstruir escenas dinámicas genéricas, con un movimiento 3D explícito y de secuencia completa, a partir de videos monoculares capturados de manera casual. Abordamos la naturaleza subdeterminada del problema con dos ideas clave: Primero, explotamos la estructura de baja dimensión del movimiento 3D representando el movimiento de la escena con un conjunto compacto de bases de movimiento SE3. El movimiento de cada punto se expresa como una combinación lineal de estas bases, facilitando la descomposición suave de la escena en múltiples grupos que se mueven rígidamente. Segundo, utilizamos un conjunto completo de precondiciones basadas en datos, incluidos mapas de profundidad monoculares y pistas 2D de largo alcance, y diseñamos un método para consolidar eficazmente estas señales de supervisión ruidosas, lo que resulta en una representación globalmente consistente de la escena dinámica. Los experimentos muestran que nuestro método logra un rendimiento de vanguardia tanto en la estimación de movimiento 3D/2D de largo alcance como en la síntesis de vistas novedosas en escenas dinámicas. Página del proyecto: https://shape-of-motion.github.io/
English
Monocular dynamic reconstruction is a challenging and long-standing vision
problem due to the highly ill-posed nature of the task. Existing approaches are
limited in that they either depend on templates, are effective only in
quasi-static scenes, or fail to model 3D motion explicitly. In this work, we
introduce a method capable of reconstructing generic dynamic scenes, featuring
explicit, full-sequence-long 3D motion, from casually captured monocular
videos. We tackle the under-constrained nature of the problem with two key
insights: First, we exploit the low-dimensional structure of 3D motion by
representing scene motion with a compact set of SE3 motion bases. Each point's
motion is expressed as a linear combination of these bases, facilitating soft
decomposition of the scene into multiple rigidly-moving groups. Second, we
utilize a comprehensive set of data-driven priors, including monocular depth
maps and long-range 2D tracks, and devise a method to effectively consolidate
these noisy supervisory signals, resulting in a globally consistent
representation of the dynamic scene. Experiments show that our method achieves
state-of-the-art performance for both long-range 3D/2D motion estimation and
novel view synthesis on dynamic scenes. Project Page:
https://shape-of-motion.github.io/Summary
AI-Generated Summary