ChatPaper.aiChatPaper

Форма движения: восстановление 4D из одного видео

Shape of Motion: 4D Reconstruction from a Single Video

July 18, 2024
Авторы: Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
cs.AI

Аннотация

Монокулярная динамическая реконструкция является сложной и давней проблемой компьютерного зрения из-за сильно недоопределенной природы задачи. Существующие подходы ограничены тем, что либо зависят от шаблонов, эффективны только в квазистатических сценах, либо не учитывают явным образом трехмерное движение. В данной работе мы представляем метод способный реконструировать общие динамические сцены, отличающийся явным, полносеквенчным трехмерным движением, из случайно захваченных монокулярных видео. Мы решаем недостаточно определенную природу проблемы с помощью двух ключевых идей: Во-первых, мы используем низкоразмерную структуру трехмерного движения, представляя движение сцены компактным набором базовых SE3 движений. Движение каждой точки выражается как линейная комбинация этих баз, облегчая мягкое разложение сцены на несколько жестко движущихся групп. Во-вторых, мы используем обширный набор данных, включая монокулярные карты глубины и долгосрочные 2D треки, и разрабатываем метод эффективного объединения этих шумных сигналов надзора, что приводит к глобально согласованному представлению динамической сцены. Эксперименты показывают, что наш метод достигает передового уровня производительности как в оценке трехмерного/двумерного движения на длинные расстояния, так и в синтезе нового вида на динамических сценах. Страница проекта: https://shape-of-motion.github.io/
English
Monocular dynamic reconstruction is a challenging and long-standing vision problem due to the highly ill-posed nature of the task. Existing approaches are limited in that they either depend on templates, are effective only in quasi-static scenes, or fail to model 3D motion explicitly. In this work, we introduce a method capable of reconstructing generic dynamic scenes, featuring explicit, full-sequence-long 3D motion, from casually captured monocular videos. We tackle the under-constrained nature of the problem with two key insights: First, we exploit the low-dimensional structure of 3D motion by representing scene motion with a compact set of SE3 motion bases. Each point's motion is expressed as a linear combination of these bases, facilitating soft decomposition of the scene into multiple rigidly-moving groups. Second, we utilize a comprehensive set of data-driven priors, including monocular depth maps and long-range 2D tracks, and devise a method to effectively consolidate these noisy supervisory signals, resulting in a globally consistent representation of the dynamic scene. Experiments show that our method achieves state-of-the-art performance for both long-range 3D/2D motion estimation and novel view synthesis on dynamic scenes. Project Page: https://shape-of-motion.github.io/

Summary

AI-Generated Summary

PDF202November 28, 2024