ChatPaper.aiChatPaper

Forma del Movimiento: Reconstrucción 4D a partir de un Único Video

Shape of Motion: 4D Reconstruction from a Single Video

July 18, 2024
Autores: Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
cs.AI

Resumen

La reconstrucción dinámica monocular es un problema desafiante y de larga data en visión debido a la naturaleza altamente mal planteada de la tarea. Los enfoques existentes están limitados en que dependen de plantillas, son efectivos solo en escenas cuasi estáticas, o no logran modelar explícitamente el movimiento 3D. En este trabajo, presentamos un método capaz de reconstruir escenas dinámicas genéricas, con un movimiento 3D explícito y de secuencia completa, a partir de videos monoculares capturados de manera casual. Abordamos la naturaleza subdeterminada del problema con dos ideas clave: Primero, explotamos la estructura de baja dimensión del movimiento 3D representando el movimiento de la escena con un conjunto compacto de bases de movimiento SE3. El movimiento de cada punto se expresa como una combinación lineal de estas bases, facilitando la descomposición suave de la escena en múltiples grupos que se mueven rígidamente. Segundo, utilizamos un conjunto completo de precondiciones basadas en datos, incluidos mapas de profundidad monoculares y pistas 2D de largo alcance, y diseñamos un método para consolidar eficazmente estas señales de supervisión ruidosas, lo que resulta en una representación globalmente consistente de la escena dinámica. Los experimentos muestran que nuestro método logra un rendimiento de vanguardia tanto en la estimación de movimiento 3D/2D de largo alcance como en la síntesis de vistas novedosas en escenas dinámicas. Página del proyecto: https://shape-of-motion.github.io/
English
Monocular dynamic reconstruction is a challenging and long-standing vision problem due to the highly ill-posed nature of the task. Existing approaches are limited in that they either depend on templates, are effective only in quasi-static scenes, or fail to model 3D motion explicitly. In this work, we introduce a method capable of reconstructing generic dynamic scenes, featuring explicit, full-sequence-long 3D motion, from casually captured monocular videos. We tackle the under-constrained nature of the problem with two key insights: First, we exploit the low-dimensional structure of 3D motion by representing scene motion with a compact set of SE3 motion bases. Each point's motion is expressed as a linear combination of these bases, facilitating soft decomposition of the scene into multiple rigidly-moving groups. Second, we utilize a comprehensive set of data-driven priors, including monocular depth maps and long-range 2D tracks, and devise a method to effectively consolidate these noisy supervisory signals, resulting in a globally consistent representation of the dynamic scene. Experiments show that our method achieves state-of-the-art performance for both long-range 3D/2D motion estimation and novel view synthesis on dynamic scenes. Project Page: https://shape-of-motion.github.io/

Summary

AI-Generated Summary

PDF202November 28, 2024