ChatPaper.aiChatPaper

SpatialTrackerV2: Rastreamento de Pontos 3D Simplificado

SpatialTrackerV2: 3D Point Tracking Made Easy

July 16, 2025
Autores: Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou
cs.AI

Resumo

Apresentamos o SpatialTrackerV2, um método de rastreamento de pontos 3D feed-forward para vídeos monoculares. Indo além de pipelines modulares construídos com componentes prontos para rastreamento 3D, nossa abordagem unifica as conexões intrínsecas entre rastreamento de pontos, profundidade monocular e estimativa de pose da câmera em um rastreador de pontos 3D de alto desempenho e feedforward. Ele decompõe o movimento 3D no espaço mundial em geometria da cena, ego-movimento da câmera e movimento objeto a nível de pixel, com uma arquitetura totalmente diferenciável e end-to-end, permitindo treinamento escalável em uma ampla gama de conjuntos de dados, incluindo sequências sintéticas, vídeos RGB-D com pose e filmagens não rotuladas em ambientes reais. Ao aprender geometria e movimento conjuntamente a partir de dados tão heterogêneos, o SpatialTrackerV2 supera os métodos existentes de rastreamento 3D em 30% e iguala a precisão das principais abordagens de reconstrução 3D dinâmica, enquanto opera 50 vezes mais rápido.
English
We present SpatialTrackerV2, a feed-forward 3D point tracking method for monocular videos. Going beyond modular pipelines built on off-the-shelf components for 3D tracking, our approach unifies the intrinsic connections between point tracking, monocular depth, and camera pose estimation into a high-performing and feedforward 3D point tracker. It decomposes world-space 3D motion into scene geometry, camera ego-motion, and pixel-wise object motion, with a fully differentiable and end-to-end architecture, allowing scalable training across a wide range of datasets, including synthetic sequences, posed RGB-D videos, and unlabeled in-the-wild footage. By learning geometry and motion jointly from such heterogeneous data, SpatialTrackerV2 outperforms existing 3D tracking methods by 30%, and matches the accuracy of leading dynamic 3D reconstruction approaches while running 50times faster.
PDF152July 17, 2025