ChatPaper.aiChatPaper

TAPIP3D: Отслеживание любой точки в устойчивой 3D-геометрии

TAPIP3D: Tracking Any Point in Persistent 3D Geometry

April 20, 2025
Авторы: Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki
cs.AI

Аннотация

Мы представляем TAPIP3D — новый подход для долгосрочного трекинга 3D точек в монохромных RGB и RGB-D видео. TAPIP3D представляет видео в виде стабилизированных относительно камеры пространственно-временных облаков признаков, используя информацию о глубине и движении камеры для переноса 2D признаков видео в 3D мировое пространство, где движение камеры эффективно компенсируется. TAPIP3D итеративно уточняет оценки 3D движения на основе нескольких кадров в рамках этой стабилизированной репрезентации, что позволяет осуществлять устойчивый трекинг на протяжении длительных периодов. Для управления присущими 3D распределениям точек нерегулярностями мы предлагаем механизм Local Pair Attention. Эта стратегия 3D контекстуализации эффективно использует пространственные отношения в 3D, формируя информативные окрестности признаков для точного оценивания 3D траекторий. Наш подход, ориентированный на 3D, значительно превосходит существующие методы трекинга 3D точек и даже улучшает точность 2D трекинга по сравнению с традиционными 2D пиксельными трекерами при наличии точных данных о глубине. Он поддерживает вывод как в координатах камеры (т.е. нестабилизированных), так и в мировых координатах, и наши результаты показывают, что компенсация движения камеры улучшает производительность трекинга. Наш подход заменяет традиционные 2D квадратные корреляционные окрестности, используемые в предыдущих 2D и 3D трекерах, что приводит к более устойчивым и точным результатам на различных бенчмарках трекинга 3D точек. Страница проекта: https://tapip3d.github.io
English
We introduce TAPIP3D, a novel approach for long-term 3D point tracking in monocular RGB and RGB-D videos. TAPIP3D represents videos as camera-stabilized spatio-temporal feature clouds, leveraging depth and camera motion information to lift 2D video features into a 3D world space where camera motion is effectively canceled. TAPIP3D iteratively refines multi-frame 3D motion estimates within this stabilized representation, enabling robust tracking over extended periods. To manage the inherent irregularities of 3D point distributions, we propose a Local Pair Attention mechanism. This 3D contextualization strategy effectively exploits spatial relationships in 3D, forming informative feature neighborhoods for precise 3D trajectory estimation. Our 3D-centric approach significantly outperforms existing 3D point tracking methods and even enhances 2D tracking accuracy compared to conventional 2D pixel trackers when accurate depth is available. It supports inference in both camera coordinates (i.e., unstabilized) and world coordinates, and our results demonstrate that compensating for camera motion improves tracking performance. Our approach replaces the conventional 2D square correlation neighborhoods used in prior 2D and 3D trackers, leading to more robust and accurate results across various 3D point tracking benchmarks. Project Page: https://tapip3d.github.io
PDF82April 22, 2025