Bewegungsform: 4D-Rekonstruktion aus einem einzigen Video
Shape of Motion: 4D Reconstruction from a Single Video
July 18, 2024
Autoren: Qianqian Wang, Vickie Ye, Hang Gao, Jake Austin, Zhengqi Li, Angjoo Kanazawa
cs.AI
Zusammenfassung
Die dynamische Rekonstruktion aus monokularen Ansichten ist aufgrund der stark unbestimmten Natur der Aufgabe ein anspruchsvolles und langjähriges Problem der Bildverarbeitung. Bestehende Ansätze sind begrenzt, da sie entweder auf Vorlagen angewiesen sind, nur in quasi-statischen Szenen wirksam sind oder es versäumen, 3D-Bewegungen explizit zu modellieren. In dieser Arbeit stellen wir eine Methode vor, die in der Lage ist, generische dynamische Szenen aus zufällig aufgenommenen monokularen Videos mit expliziten, vollständigen 3D-Bewegungen zu rekonstruieren. Wir gehen mit zwei Schlüsselerkenntnissen auf die unterbestimmte Natur des Problems ein: Erstens nutzen wir die niedrigdimensionale Struktur von 3D-Bewegungen aus, indem wir Szenenbewegungen mit einem kompakten Satz von SE3-Bewegungsbasen darstellen. Die Bewegung jedes Punktes wird als lineare Kombination dieser Basen ausgedrückt, was die sanfte Zerlegung der Szene in mehrere starr bewegende Gruppen ermöglicht. Zweitens verwenden wir eine umfassende Sammlung datengetriebener Voraussetzungen, einschließlich monokularer Tiefenkarten und langreichweitiger 2D-Verfolgungen, und entwickeln eine Methode, um diese rauschenden Überwachungssignale effektiv zu konsolidieren, was zu einer global konsistenten Darstellung der dynamischen Szene führt. Experimente zeigen, dass unsere Methode eine Spitzenleistung sowohl bei der Schätzung von 3D/2D-Bewegungen über lange Strecken als auch bei der Synthese neuer Ansichten von dynamischen Szenen erreicht. Projektseite: https://shape-of-motion.github.io/
English
Monocular dynamic reconstruction is a challenging and long-standing vision
problem due to the highly ill-posed nature of the task. Existing approaches are
limited in that they either depend on templates, are effective only in
quasi-static scenes, or fail to model 3D motion explicitly. In this work, we
introduce a method capable of reconstructing generic dynamic scenes, featuring
explicit, full-sequence-long 3D motion, from casually captured monocular
videos. We tackle the under-constrained nature of the problem with two key
insights: First, we exploit the low-dimensional structure of 3D motion by
representing scene motion with a compact set of SE3 motion bases. Each point's
motion is expressed as a linear combination of these bases, facilitating soft
decomposition of the scene into multiple rigidly-moving groups. Second, we
utilize a comprehensive set of data-driven priors, including monocular depth
maps and long-range 2D tracks, and devise a method to effectively consolidate
these noisy supervisory signals, resulting in a globally consistent
representation of the dynamic scene. Experiments show that our method achieves
state-of-the-art performance for both long-range 3D/2D motion estimation and
novel view synthesis on dynamic scenes. Project Page:
https://shape-of-motion.github.io/Summary
AI-Generated Summary