SpatialTrackerV2: 3Dポイント追跡を簡単に
SpatialTrackerV2: 3D Point Tracking Made Easy
July 16, 2025
著者: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI
要旨
本論文では、単眼動画におけるフィードフォワード型3Dポイントトラッキング手法「SpatialTrackerV2」を提案する。従来の3Dトラッキング向けモジュール型パイプラインを超え、ポイントトラッキング、単眼深度推定、カメラポーズ推定の本質的な関連性を統合し、高性能なフィードフォワード型3Dポイントトラッカーを実現した。本手法は、ワールド空間における3D運動をシーン幾何学、カメラの自己運動、ピクセル単位の物体運動に分解し、完全微分可能かつエンドツーエンドのアーキテクチャを採用することで、合成シーケンス、ポーズ付きRGB-D動画、ラベルなし実世界映像など、多様なデータセットにわたるスケーラブルな学習を可能にしている。このような異種データから幾何学と運動を同時に学習することにより、SpatialTrackerV2は既存の3Dトラッキング手法を30%上回る性能を発揮し、主要な動的3D再構成手法と同等の精度を維持しながら50倍高速に動作する。
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for
monocular videos. Going beyond modular pipelines built on off-the-shelf
components for 3D tracking, our approach unifies the intrinsic connections
between point tracking, monocular depth, and camera pose estimation into a
high-performing and feedforward 3D point tracker. It decomposes world-space 3D
motion into scene geometry, camera ego-motion, and pixel-wise object motion,
with a fully differentiable and end-to-end architecture, allowing scalable
training across a wide range of datasets, including synthetic sequences, posed
RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and
motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms
existing 3D tracking methods by 30%, and matches the accuracy of leading
dynamic 3D reconstruction approaches while running 50times faster.