ChatPaper.aiChatPaper

SpatialTrackerV2: 3D-puntvolgen eenvoudig gemaakt

SpatialTrackerV2: 3D Point Tracking Made Easy

July 16, 2025
Auteurs: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI

Samenvatting

We presenteren SpatialTrackerV2, een feedforward 3D-puntvolgmethode voor monovideo's. In tegenstelling tot modulaire pijplijnen die zijn opgebouwd uit standaardcomponenten voor 3D-volgen, verenigt onze aanpak de intrinsieke verbanden tussen puntvolgen, monoculaire diepte en camerapose-schatting in een hoogpresterende en feedforward 3D-puntvolger. Het ontbindt 3D-beweging in de wereldruimte in scènegeometrie, camera-egobeweging en pixelgewijze objectbeweging, met een volledig differentieerbare en end-to-end architectuur, waardoor schaalbare training mogelijk is over een breed scala aan datasets, waaronder synthetische sequenties, geposeerde RGB-D-video's en ongelabelde beelden uit de praktijk. Door geometrie en beweging gezamenlijk te leren van dergelijke heterogene data, overtreft SpatialTrackerV2 bestaande 3D-volgmethoden met 30% en evenaart het de nauwkeurigheid van toonaangevende dynamische 3D-reconstructiebenaderingen terwijl het 50 keer sneller werkt.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for monocular videos. Going beyond modular pipelines built on off-the-shelf components for 3D tracking, our approach unifies the intrinsic connections between point tracking, monocular depth, and camera pose estimation into a high-performing and feedforward 3D point tracker. It decomposes world-space 3D motion into scene geometry, camera ego-motion, and pixel-wise object motion, with a fully differentiable and end-to-end architecture, allowing scalable training across a wide range of datasets, including synthetic sequences, posed RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms existing 3D tracking methods by 30%, and matches the accuracy of leading dynamic 3D reconstruction approaches while running 50times faster.
PDF182December 22, 2025