SpatialTrackerV2: Tracciamento 3D di Punti Semplificato
SpatialTrackerV2: 3D Point Tracking Made Easy
July 16, 2025
Autori: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI
Abstract
Presentiamo SpatialTrackerV2, un metodo di tracciamento 3D feed-forward per video monoculari. Andando oltre le pipeline modulari costruite su componenti preesistenti per il tracciamento 3D, il nostro approccio unifica le connessioni intrinseche tra il tracciamento dei punti, la profondità monoculare e la stima della posa della fotocamera in un tracciatore 3D ad alte prestazioni e feedforward. Esso scompone il movimento 3D nello spazio mondiale in geometria della scena, movimento ego della fotocamera e movimento pixel-per-pixel degli oggetti, con un'architettura completamente differenziabile e end-to-end, consentendo un addestramento scalabile su un'ampia gamma di dataset, inclusi sequenze sintetiche, video RGB-D con pose e riprese non etichettate in ambienti reali. Apprendendo congiuntamente la geometria e il movimento da tali dati eterogenei, SpatialTrackerV2 supera i metodi di tracciamento 3D esistenti del 30% e raggiunge la precisione dei principali approcci di ricostruzione 3D dinamica, operando 50 volte più velocemente.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for
monocular videos. Going beyond modular pipelines built on off-the-shelf
components for 3D tracking, our approach unifies the intrinsic connections
between point tracking, monocular depth, and camera pose estimation into a
high-performing and feedforward 3D point tracker. It decomposes world-space 3D
motion into scene geometry, camera ego-motion, and pixel-wise object motion,
with a fully differentiable and end-to-end architecture, allowing scalable
training across a wide range of datasets, including synthetic sequences, posed
RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and
motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms
existing 3D tracking methods by 30%, and matches the accuracy of leading
dynamic 3D reconstruction approaches while running 50times faster.