ChatPaper.aiChatPaper

SpatialTrackerV2: Простое отслеживание 3D-точек

SpatialTrackerV2: 3D Point Tracking Made Easy

July 16, 2025
Авторы: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI

Аннотация

Мы представляем SpatialTrackerV2 — метод прямого 3D-отслеживания точек для монохромных видео. В отличие от модульных подходов, основанных на готовых компонентах для 3D-отслеживания, наш метод объединяет внутренние связи между отслеживанием точек, монохромной оценкой глубины и оценкой позы камеры в высокопроизводительный и прямой 3D-трекер точек. Он разлагает движение в мировом пространстве на геометрию сцены, эго-движение камеры и поточечное движение объектов, используя полностью дифференцируемую и сквозную архитектуру, что позволяет масштабируемое обучение на широком спектре данных, включая синтетические последовательности, RGB-D видео с известной позой и немаркированные записи из реального мира. Благодаря совместному обучению геометрии и движению на таких разнородных данных, SpatialTrackerV2 превосходит существующие методы 3D-отслеживания на 30% и достигает точности ведущих подходов к динамической 3D-реконструкции, работая при этом в 50 раз быстрее.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for monocular videos. Going beyond modular pipelines built on off-the-shelf components for 3D tracking, our approach unifies the intrinsic connections between point tracking, monocular depth, and camera pose estimation into a high-performing and feedforward 3D point tracker. It decomposes world-space 3D motion into scene geometry, camera ego-motion, and pixel-wise object motion, with a fully differentiable and end-to-end architecture, allowing scalable training across a wide range of datasets, including synthetic sequences, posed RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms existing 3D tracking methods by 30%, and matches the accuracy of leading dynamic 3D reconstruction approaches while running 50times faster.
PDF82July 17, 2025