ChatPaper.aiChatPaper

SpatialTrackerV2: Seguimiento de puntos 3D simplificado

SpatialTrackerV2: 3D Point Tracking Made Easy

July 16, 2025
Autores: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI

Resumen

Presentamos SpatialTrackerV2, un método de seguimiento de puntos 3D en flujo directo para videos monoculares. Más allá de las arquitecturas modulares basadas en componentes estándar para seguimiento 3D, nuestro enfoque unifica las conexiones intrínsecas entre el seguimiento de puntos, la profundidad monocular y la estimación de la pose de la cámara en un rastreador de puntos 3D de alto rendimiento y flujo directo. Descompone el movimiento 3D en el espacio mundial en geometría de la escena, egomovimiento de la cámara y movimiento por píxel de los objetos, con una arquitectura completamente diferenciable y de extremo a extremo, permitiendo un entrenamiento escalable en una amplia gama de conjuntos de datos, incluyendo secuencias sintéticas, videos RGB-D con pose y material sin etiquetar de entornos reales. Al aprender geometría y movimiento de manera conjunta a partir de datos tan heterogéneos, SpatialTrackerV2 supera a los métodos existentes de seguimiento 3D en un 30% y alcanza la precisión de los principales enfoques de reconstrucción 3D dinámica mientras funciona 50 veces más rápido.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for monocular videos. Going beyond modular pipelines built on off-the-shelf components for 3D tracking, our approach unifies the intrinsic connections between point tracking, monocular depth, and camera pose estimation into a high-performing and feedforward 3D point tracker. It decomposes world-space 3D motion into scene geometry, camera ego-motion, and pixel-wise object motion, with a fully differentiable and end-to-end architecture, allowing scalable training across a wide range of datasets, including synthetic sequences, posed RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms existing 3D tracking methods by 30%, and matches the accuracy of leading dynamic 3D reconstruction approaches while running 50times faster.
PDF82July 17, 2025