ChatPaper.aiChatPaper

SpatialTrackerV2: 3D 포인트 트래킹을 손쉽게

SpatialTrackerV2: 3D Point Tracking Made Easy

July 16, 2025
저자: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI

초록

우리는 단안 비디오를 위한 피드포워드(feed-forward) 방식의 3D 포인트 추적 방법인 SpatialTrackerV2를 제안한다. 기존의 3D 추적을 위해 상용 컴포넌트를 기반으로 구축된 모듈형 파이프라인을 넘어, 이 접근법은 포인트 추적, 단안 깊이, 카메라 포즈 추정 간의 내재적 연결을 통합하여 고성능의 피드포워드 3D 포인트 추적기를 구현한다. 이 방법은 세계 공간에서의 3D 운동을 장면 기하학, 카메라 자체 운동, 픽셀 단위 객체 운동으로 분해하며, 완전히 미분 가능하고 종단 간(end-to-end) 아키텍처를 통해 합성 시퀀스, 포즈된 RGB-D 비디오, 레이블 없는 실외 영상 등 다양한 데이터셋에서 확장 가능한 학습을 가능하게 한다. 이러한 이질적인 데이터로부터 기하학과 운동을 동시에 학습함으로써, SpatialTrackerV2는 기존 3D 추적 방법보다 30% 더 우수한 성능을 보이며, 선도적인 동적 3D 재구성 접근법의 정확도를 유지하면서 50배 더 빠르게 실행된다.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for monocular videos. Going beyond modular pipelines built on off-the-shelf components for 3D tracking, our approach unifies the intrinsic connections between point tracking, monocular depth, and camera pose estimation into a high-performing and feedforward 3D point tracker. It decomposes world-space 3D motion into scene geometry, camera ego-motion, and pixel-wise object motion, with a fully differentiable and end-to-end architecture, allowing scalable training across a wide range of datasets, including synthetic sequences, posed RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms existing 3D tracking methods by 30%, and matches the accuracy of leading dynamic 3D reconstruction approaches while running 50times faster.
PDF82July 17, 2025