TAPIP3D : Suivi de tout point dans une géométrie 3D persistante
TAPIP3D: Tracking Any Point in Persistent 3D Geometry
April 20, 2025
Auteurs: Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki
cs.AI
Résumé
Nous présentons TAPIP3D, une nouvelle approche pour le suivi à long terme de points 3D dans des vidéos monoscopiques RVB et RVB-D. TAPIP3D représente les vidéos sous forme de nuages de caractéristiques spatio-temporelles stabilisés par rapport à la caméra, exploitant les informations de profondeur et de mouvement de la caméra pour projeter les caractéristiques 2D de la vidéo dans un espace 3D mondial où le mouvement de la caméra est efficacement annulé. TAPIP3D affine itérativement les estimations de mouvement 3D multi-images au sein de cette représentation stabilisée, permettant un suivi robuste sur de longues périodes. Pour gérer les irrégularités inhérentes des distributions de points 3D, nous proposons un mécanisme d'Attention Locale par Paires. Cette stratégie de contextualisation 3D exploite efficacement les relations spatiales en 3D, formant des voisinages de caractéristiques informatifs pour une estimation précise des trajectoires 3D. Notre approche centrée sur la 3D surpasse significativement les méthodes existantes de suivi de points 3D et améliore même la précision du suivi 2D par rapport aux trackeurs de pixels 2D conventionnels lorsque la profondeur est précise. Elle prend en charge l'inférence à la fois dans les coordonnées de la caméra (c'est-à-dire non stabilisées) et dans les coordonnées mondiales, et nos résultats démontrent que la compensation du mouvement de la caméra améliore les performances de suivi. Notre approche remplace les voisinages de corrélation carrés 2D utilisés dans les trackeurs 2D et 3D précédents, conduisant à des résultats plus robustes et précis sur divers benchmarks de suivi de points 3D. Page du projet : https://tapip3d.github.io
English
We introduce TAPIP3D, a novel approach for long-term 3D point tracking in
monocular RGB and RGB-D videos. TAPIP3D represents videos as camera-stabilized
spatio-temporal feature clouds, leveraging depth and camera motion information
to lift 2D video features into a 3D world space where camera motion is
effectively canceled. TAPIP3D iteratively refines multi-frame 3D motion
estimates within this stabilized representation, enabling robust tracking over
extended periods. To manage the inherent irregularities of 3D point
distributions, we propose a Local Pair Attention mechanism. This 3D
contextualization strategy effectively exploits spatial relationships in 3D,
forming informative feature neighborhoods for precise 3D trajectory estimation.
Our 3D-centric approach significantly outperforms existing 3D point tracking
methods and even enhances 2D tracking accuracy compared to conventional 2D
pixel trackers when accurate depth is available. It supports inference in both
camera coordinates (i.e., unstabilized) and world coordinates, and our results
demonstrate that compensating for camera motion improves tracking performance.
Our approach replaces the conventional 2D square correlation neighborhoods used
in prior 2D and 3D trackers, leading to more robust and accurate results across
various 3D point tracking benchmarks. Project Page: https://tapip3d.github.ioSummary
AI-Generated Summary