ChatPaper.aiChatPaper

SpatialTracker: Verfolgung beliebiger 2D-Pixel im 3D-Raum

SpatialTracker: Tracking Any 2D Pixels in 3D Space

April 5, 2024
Autoren: Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou
cs.AI

Zusammenfassung

Die Wiederherstellung dichter und weitreichender Pixelbewegungen in Videos ist ein herausforderndes Problem. Ein Teil der Schwierigkeit ergibt sich aus dem 3D-zu-2D-Projektionsprozess, der zu Okklusionen und Diskontinuitäten im 2D-Bewegungsbereich führt. Während 2D-Bewegungen komplex sein können, postulieren wir, dass die zugrunde liegende 3D-Bewegung oft einfach und niedrigdimensional sein kann. In dieser Arbeit schlagen wir vor, Punkttrajektorien im 3D-Raum zu schätzen, um die durch die Bildprojektion verursachten Probleme zu mildern. Unsere Methode, namens SpatialTracker, hebt 2D-Pixel in 3D mithilfe monokularer Tiefenschätzer an, repräsentiert den 3D-Inhalt jedes Rahmens effizient mithilfe einer Triplane-Darstellung und führt iterative Aktualisierungen mithilfe eines Transformers durch, um 3D-Trajektorien zu schätzen. Das Tracking im 3D-Raum ermöglicht es uns, as-rigid-as-possible (ARAP)-Beschränkungen zu nutzen, während gleichzeitig ein Steifigkeitsembedding erlernt wird, das Pixel in verschiedene starre Teile gruppiert. Eine umfangreiche Evaluation zeigt, dass unser Ansatz sowohl qualitativ als auch quantitativ eine Spitzenleistung beim Tracking erreicht, insbesondere in herausfordernden Szenarien wie der außerhalb der Bildebene liegenden Rotation.
English
Recovering dense and long-range pixel motion in videos is a challenging problem. Part of the difficulty arises from the 3D-to-2D projection process, leading to occlusions and discontinuities in the 2D motion domain. While 2D motion can be intricate, we posit that the underlying 3D motion can often be simple and low-dimensional. In this work, we propose to estimate point trajectories in 3D space to mitigate the issues caused by image projection. Our method, named SpatialTracker, lifts 2D pixels to 3D using monocular depth estimators, represents the 3D content of each frame efficiently using a triplane representation, and performs iterative updates using a transformer to estimate 3D trajectories. Tracking in 3D allows us to leverage as-rigid-as-possible (ARAP) constraints while simultaneously learning a rigidity embedding that clusters pixels into different rigid parts. Extensive evaluation shows that our approach achieves state-of-the-art tracking performance both qualitatively and quantitatively, particularly in challenging scenarios such as out-of-plane rotation.

Summary

AI-Generated Summary

PDF261December 15, 2024