SpatialTrackerV2 : Suivi 3D de points simplifié
SpatialTrackerV2: 3D Point Tracking Made Easy
July 16, 2025
papers.authors: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI
papers.abstract
Nous présentons SpatialTrackerV2, une méthode de suivi de points 3D en flux direct pour des vidéos monoculaires. Allant au-delà des pipelines modulaires construits à partir de composants standards pour le suivi 3D, notre approche unifie les connexions intrinsèques entre le suivi de points, la profondeur monoculaire et l'estimation de la pose de la caméra en un suiveur de points 3D performant et en flux direct. Il décompose le mouvement 3D dans l'espace mondial en géométrie de la scène, mouvement propre de la caméra et mouvement objet au niveau des pixels, avec une architecture entièrement différentiable et de bout en bout, permettant un entraînement scalable sur une large gamme de jeux de données, incluant des séquences synthétiques, des vidéos RGB-D avec pose, et des séquences non étiquetées en conditions réelles. En apprenant conjointement la géométrie et le mouvement à partir de données aussi hétérogènes, SpatialTrackerV2 surpasse les méthodes de suivi 3D existantes de 30%, et atteint la précision des meilleures approches de reconstruction 3D dynamique tout en étant 50 fois plus rapide.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for
monocular videos. Going beyond modular pipelines built on off-the-shelf
components for 3D tracking, our approach unifies the intrinsic connections
between point tracking, monocular depth, and camera pose estimation into a
high-performing and feedforward 3D point tracker. It decomposes world-space 3D
motion into scene geometry, camera ego-motion, and pixel-wise object motion,
with a fully differentiable and end-to-end architecture, allowing scalable
training across a wide range of datasets, including synthetic sequences, posed
RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and
motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms
existing 3D tracking methods by 30%, and matches the accuracy of leading
dynamic 3D reconstruction approaches while running 50times faster.