ChatPaper.aiChatPaper

SpatialTrackerV2: Tracciamento 3D di Punti Semplificato

SpatialTrackerV2: 3D Point Tracking Made Easy

July 16, 2025
Autori: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI

Abstract

Presentiamo SpatialTrackerV2, un metodo di tracciamento 3D feed-forward per video monoculari. Andando oltre le pipeline modulari costruite su componenti preesistenti per il tracciamento 3D, il nostro approccio unifica le connessioni intrinseche tra il tracciamento dei punti, la profondità monoculare e la stima della posa della fotocamera in un tracciatore 3D ad alte prestazioni e feedforward. Esso scompone il movimento 3D nello spazio mondiale in geometria della scena, movimento ego della fotocamera e movimento pixel-per-pixel degli oggetti, con un'architettura completamente differenziabile e end-to-end, consentendo un addestramento scalabile su un'ampia gamma di dataset, inclusi sequenze sintetiche, video RGB-D con pose e riprese non etichettate in ambienti reali. Apprendendo congiuntamente la geometria e il movimento da tali dati eterogenei, SpatialTrackerV2 supera i metodi di tracciamento 3D esistenti del 30% e raggiunge la precisione dei principali approcci di ricostruzione 3D dinamica, operando 50 volte più velocemente.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for monocular videos. Going beyond modular pipelines built on off-the-shelf components for 3D tracking, our approach unifies the intrinsic connections between point tracking, monocular depth, and camera pose estimation into a high-performing and feedforward 3D point tracker. It decomposes world-space 3D motion into scene geometry, camera ego-motion, and pixel-wise object motion, with a fully differentiable and end-to-end architecture, allowing scalable training across a wide range of datasets, including synthetic sequences, posed RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms existing 3D tracking methods by 30%, and matches the accuracy of leading dynamic 3D reconstruction approaches while running 50times faster.
PDF152July 17, 2025