SpatialTrackerV2: Seguimiento de puntos 3D simplificado
SpatialTrackerV2: 3D Point Tracking Made Easy
July 16, 2025
Autores: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI
Resumen
Presentamos SpatialTrackerV2, un método de seguimiento de puntos 3D en flujo directo para videos monoculares. Más allá de las arquitecturas modulares basadas en componentes estándar para seguimiento 3D, nuestro enfoque unifica las conexiones intrínsecas entre el seguimiento de puntos, la profundidad monocular y la estimación de la pose de la cámara en un rastreador de puntos 3D de alto rendimiento y flujo directo. Descompone el movimiento 3D en el espacio mundial en geometría de la escena, egomovimiento de la cámara y movimiento por píxel de los objetos, con una arquitectura completamente diferenciable y de extremo a extremo, permitiendo un entrenamiento escalable en una amplia gama de conjuntos de datos, incluyendo secuencias sintéticas, videos RGB-D con pose y material sin etiquetar de entornos reales. Al aprender geometría y movimiento de manera conjunta a partir de datos tan heterogéneos, SpatialTrackerV2 supera a los métodos existentes de seguimiento 3D en un 30% y alcanza la precisión de los principales enfoques de reconstrucción 3D dinámica mientras funciona 50 veces más rápido.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for
monocular videos. Going beyond modular pipelines built on off-the-shelf
components for 3D tracking, our approach unifies the intrinsic connections
between point tracking, monocular depth, and camera pose estimation into a
high-performing and feedforward 3D point tracker. It decomposes world-space 3D
motion into scene geometry, camera ego-motion, and pixel-wise object motion,
with a fully differentiable and end-to-end architecture, allowing scalable
training across a wide range of datasets, including synthetic sequences, posed
RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and
motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms
existing 3D tracking methods by 30%, and matches the accuracy of leading
dynamic 3D reconstruction approaches while running 50times faster.