Forma do Movimento: Reconstrução 4D a partir de um Único Vídeo
Shape of Motion: 4D Reconstruction from a Single Video
July 18, 2024
Autores: Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
cs.AI
Resumo
A reconstrução dinâmica monocular é um problema desafiador e de longa data na visão computacional, devido à natureza altamente mal posta da tarefa. As abordagens existentes são limitadas, pois dependem de modelos, são eficazes apenas em cenas quase estáticas, ou falham em modelar explicitamente o movimento 3D. Neste trabalho, introduzimos um método capaz de reconstruir cenas dinâmicas genéricas, apresentando movimento 3D explícito ao longo de sequências completas, a partir de vídeos monoculares capturados casualmente. Abordamos a natureza subdeterminada do problema com duas percepções-chave: Primeiramente, exploramos a estrutura de baixa dimensão do movimento 3D representando o movimento da cena com um conjunto compacto de bases de movimento SE3. O movimento de cada ponto é expresso como uma combinação linear dessas bases, facilitando a decomposição suave da cena em múltiplos grupos de movimento rígido. Em segundo lugar, utilizamos um conjunto abrangente de premissas orientadas por dados, incluindo mapas de profundidade monoculares e rastreamentos 2D de longo alcance, e desenvolvemos um método para consolidar efetivamente esses sinais de supervisão ruidosos, resultando em uma representação globalmente consistente da cena dinâmica. Experimentos demonstram que nosso método alcança desempenho de ponta tanto para estimativa de movimento 3D/2D de longo alcance quanto para síntese de novas visualizações em cenas dinâmicas. Página do Projeto: https://shape-of-motion.github.io/
English
Monocular dynamic reconstruction is a challenging and long-standing vision
problem due to the highly ill-posed nature of the task. Existing approaches are
limited in that they either depend on templates, are effective only in
quasi-static scenes, or fail to model 3D motion explicitly. In this work, we
introduce a method capable of reconstructing generic dynamic scenes, featuring
explicit, full-sequence-long 3D motion, from casually captured monocular
videos. We tackle the under-constrained nature of the problem with two key
insights: First, we exploit the low-dimensional structure of 3D motion by
representing scene motion with a compact set of SE3 motion bases. Each point's
motion is expressed as a linear combination of these bases, facilitating soft
decomposition of the scene into multiple rigidly-moving groups. Second, we
utilize a comprehensive set of data-driven priors, including monocular depth
maps and long-range 2D tracks, and devise a method to effectively consolidate
these noisy supervisory signals, resulting in a globally consistent
representation of the dynamic scene. Experiments show that our method achieves
state-of-the-art performance for both long-range 3D/2D motion estimation and
novel view synthesis on dynamic scenes. Project Page:
https://shape-of-motion.github.io/