Bewegungsform: 4D-Rekonstruktion aus einem einzigen Video

papers.abstract

Die dynamische Rekonstruktion aus monokularen Ansichten ist aufgrund der stark unbestimmten Natur der Aufgabe ein anspruchsvolles und langjähriges Problem der Bildverarbeitung. Bestehende Ansätze sind begrenzt, da sie entweder auf Vorlagen angewiesen sind, nur in quasi-statischen Szenen wirksam sind oder es versäumen, 3D-Bewegungen explizit zu modellieren. In dieser Arbeit stellen wir eine Methode vor, die in der Lage ist, generische dynamische Szenen aus zufällig aufgenommenen monokularen Videos mit expliziten, vollständigen 3D-Bewegungen zu rekonstruieren. Wir gehen mit zwei Schlüsselerkenntnissen auf die unterbestimmte Natur des Problems ein: Erstens nutzen wir die niedrigdimensionale Struktur von 3D-Bewegungen aus, indem wir Szenenbewegungen mit einem kompakten Satz von SE3-Bewegungsbasen darstellen. Die Bewegung jedes Punktes wird als lineare Kombination dieser Basen ausgedrückt, was die sanfte Zerlegung der Szene in mehrere starr bewegende Gruppen ermöglicht. Zweitens verwenden wir eine umfassende Sammlung datengetriebener Voraussetzungen, einschließlich monokularer Tiefenkarten und langreichweitiger 2D-Verfolgungen, und entwickeln eine Methode, um diese rauschenden Überwachungssignale effektiv zu konsolidieren, was zu einer global konsistenten Darstellung der dynamischen Szene führt. Experimente zeigen, dass unsere Methode eine Spitzenleistung sowohl bei der Schätzung von 3D/2D-Bewegungen über lange Strecken als auch bei der Synthese neuer Ansichten von dynamischen Szenen erreicht. Projektseite: https://shape-of-motion.github.io/

English

Monocular dynamic reconstruction is a challenging and long-standing vision problem due to the highly ill-posed nature of the task. Existing approaches are limited in that they either depend on templates, are effective only in quasi-static scenes, or fail to model 3D motion explicitly. In this work, we introduce a method capable of reconstructing generic dynamic scenes, featuring explicit, full-sequence-long 3D motion, from casually captured monocular videos. We tackle the under-constrained nature of the problem with two key insights: First, we exploit the low-dimensional structure of 3D motion by representing scene motion with a compact set of SE3 motion bases. Each point's motion is expressed as a linear combination of these bases, facilitating soft decomposition of the scene into multiple rigidly-moving groups. Second, we utilize a comprehensive set of data-driven priors, including monocular depth maps and long-range 2D tracks, and devise a method to effectively consolidate these noisy supervisory signals, resulting in a globally consistent representation of the dynamic scene. Experiments show that our method achieves state-of-the-art performance for both long-range 3D/2D motion estimation and novel view synthesis on dynamic scenes. Project Page: https://shape-of-motion.github.io/

Bewegungsform: 4D-Rekonstruktion aus einem einzigen Video

Shape of Motion: 4D Reconstruction from a Single Video

papers.abstract

Support