ChatPaper.aiChatPaper

SpatialTrackerV2: 3D-Punkt-Tracking leicht gemacht

SpatialTrackerV2: 3D Point Tracking Made Easy

July 16, 2025
papers.authors: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI

papers.abstract

Wir präsentieren SpatialTrackerV2, eine vorwärtsgerichtete Methode zur 3D-Punktverfolgung in monokularen Videos. Im Gegensatz zu modularen Pipelines, die auf Standardkomponenten für die 3D-Verfolgung basieren, vereint unser Ansatz die intrinsischen Verbindungen zwischen Punktverfolgung, monokularer Tiefenschätzung und Kameraposenschätzung in einem leistungsstarken und vorwärtsgerichteten 3D-Punktverfolger. Es zerlegt die 3D-Bewegung im Weltraum in Szenengeometrie, Kameraeigenbewegung und pixelweise Objektbewegung, mit einer vollständig differenzierbaren und end-to-end Architektur, die eine skalierbare Trainierung über eine breite Palette von Datensätzen ermöglicht, einschließlich synthetischer Sequenzen, geposeter RGB-D-Videos und ungelabelter Aufnahmen aus der freien Wildbahn. Durch das gemeinsame Lernen von Geometrie und Bewegung aus solchen heterogenen Daten übertrifft SpatialTrackerV2 bestehende 3D-Verfolgungsmethoden um 30 % und erreicht die Genauigkeit führender dynamischer 3D-Rekonstruktionsansätze bei einer 50-mal schnelleren Ausführungsgeschwindigkeit.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for monocular videos. Going beyond modular pipelines built on off-the-shelf components for 3D tracking, our approach unifies the intrinsic connections between point tracking, monocular depth, and camera pose estimation into a high-performing and feedforward 3D point tracker. It decomposes world-space 3D motion into scene geometry, camera ego-motion, and pixel-wise object motion, with a fully differentiable and end-to-end architecture, allowing scalable training across a wide range of datasets, including synthetic sequences, posed RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms existing 3D tracking methods by 30%, and matches the accuracy of leading dynamic 3D reconstruction approaches while running 50times faster.
PDF82July 17, 2025