TAPIP3D: Отслеживание любой точки в устойчивой 3D-геометрии
TAPIP3D: Tracking Any Point in Persistent 3D Geometry
April 20, 2025
Авторы: Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki
cs.AI
Аннотация
Мы представляем TAPIP3D — новый подход для долгосрочного трекинга 3D точек в монохромных RGB и RGB-D видео. TAPIP3D представляет видео в виде стабилизированных относительно камеры пространственно-временных облаков признаков, используя информацию о глубине и движении камеры для переноса 2D признаков видео в 3D мировое пространство, где движение камеры эффективно компенсируется. TAPIP3D итеративно уточняет оценки 3D движения на основе нескольких кадров в рамках этой стабилизированной репрезентации, что позволяет осуществлять устойчивый трекинг на протяжении длительных периодов. Для управления присущими 3D распределениям точек нерегулярностями мы предлагаем механизм Local Pair Attention. Эта стратегия 3D контекстуализации эффективно использует пространственные отношения в 3D, формируя информативные окрестности признаков для точного оценивания 3D траекторий. Наш подход, ориентированный на 3D, значительно превосходит существующие методы трекинга 3D точек и даже улучшает точность 2D трекинга по сравнению с традиционными 2D пиксельными трекерами при наличии точных данных о глубине. Он поддерживает вывод как в координатах камеры (т.е. нестабилизированных), так и в мировых координатах, и наши результаты показывают, что компенсация движения камеры улучшает производительность трекинга. Наш подход заменяет традиционные 2D квадратные корреляционные окрестности, используемые в предыдущих 2D и 3D трекерах, что приводит к более устойчивым и точным результатам на различных бенчмарках трекинга 3D точек. Страница проекта: https://tapip3d.github.io
English
We introduce TAPIP3D, a novel approach for long-term 3D point tracking in
monocular RGB and RGB-D videos. TAPIP3D represents videos as camera-stabilized
spatio-temporal feature clouds, leveraging depth and camera motion information
to lift 2D video features into a 3D world space where camera motion is
effectively canceled. TAPIP3D iteratively refines multi-frame 3D motion
estimates within this stabilized representation, enabling robust tracking over
extended periods. To manage the inherent irregularities of 3D point
distributions, we propose a Local Pair Attention mechanism. This 3D
contextualization strategy effectively exploits spatial relationships in 3D,
forming informative feature neighborhoods for precise 3D trajectory estimation.
Our 3D-centric approach significantly outperforms existing 3D point tracking
methods and even enhances 2D tracking accuracy compared to conventional 2D
pixel trackers when accurate depth is available. It supports inference in both
camera coordinates (i.e., unstabilized) and world coordinates, and our results
demonstrate that compensating for camera motion improves tracking performance.
Our approach replaces the conventional 2D square correlation neighborhoods used
in prior 2D and 3D trackers, leading to more robust and accurate results across
various 3D point tracking benchmarks. Project Page: https://tapip3d.github.io