SpatialTracker: Seguimiento de cualquier píxel 2D en el espacio 3D
SpatialTracker: Tracking Any 2D Pixels in 3D Space
April 5, 2024
Autores: Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou
cs.AI
Resumen
Recuperar el movimiento denso y de largo alcance de píxeles en videos es un problema desafiante. Parte de la dificultad surge del proceso de proyección 3D a 2D, lo que genera oclusiones y discontinuidades en el dominio del movimiento 2D. Aunque el movimiento 2D puede ser complejo, postulamos que el movimiento 3D subyacente a menudo puede ser simple y de baja dimensionalidad. En este trabajo, proponemos estimar trayectorias de puntos en el espacio 3D para mitigar los problemas causados por la proyección de imágenes. Nuestro método, denominado SpatialTracker, eleva píxeles 2D a 3D utilizando estimadores de profundidad monocular, representa el contenido 3D de cada fotograma de manera eficiente mediante una representación triplanar y realiza actualizaciones iterativas utilizando un transformador para estimar trayectorias 3D. El seguimiento en 3D nos permite aprovechar restricciones de "tan rígido como sea posible" (ARAP) mientras aprendemos simultáneamente una incrustación de rigidez que agrupa píxeles en diferentes partes rígidas. Una evaluación exhaustiva muestra que nuestro enfoque logra un rendimiento de seguimiento de vanguardia tanto cualitativa como cuantitativamente, particularmente en escenarios desafiantes como la rotación fuera del plano.
English
Recovering dense and long-range pixel motion in videos is a challenging
problem. Part of the difficulty arises from the 3D-to-2D projection process,
leading to occlusions and discontinuities in the 2D motion domain. While 2D
motion can be intricate, we posit that the underlying 3D motion can often be
simple and low-dimensional. In this work, we propose to estimate point
trajectories in 3D space to mitigate the issues caused by image projection. Our
method, named SpatialTracker, lifts 2D pixels to 3D using monocular depth
estimators, represents the 3D content of each frame efficiently using a
triplane representation, and performs iterative updates using a transformer to
estimate 3D trajectories. Tracking in 3D allows us to leverage
as-rigid-as-possible (ARAP) constraints while simultaneously learning a
rigidity embedding that clusters pixels into different rigid parts. Extensive
evaluation shows that our approach achieves state-of-the-art tracking
performance both qualitatively and quantitatively, particularly in challenging
scenarios such as out-of-plane rotation.Summary
AI-Generated Summary