ChatPaper.aiChatPaper

TAPIP3D: Tracciamento di Qualsiasi Punto nella Geometria 3D Persistente

TAPIP3D: Tracking Any Point in Persistent 3D Geometry

April 20, 2025
Autori: Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki
cs.AI

Abstract

Presentiamo TAPIP3D, un approccio innovativo per il tracciamento a lungo termine di punti 3D in video monoculari RGB e RGB-D. TAPIP3D rappresenta i video come nuvole spazio-temporali di feature stabilizzate rispetto alla telecamera, sfruttando le informazioni sulla profondità e sul movimento della telecamera per proiettare le feature 2D del video in uno spazio 3D in cui il movimento della telecamera è efficacemente annullato. TAPIP3D raffina iterativamente le stime del movimento 3D su più frame all'interno di questa rappresentazione stabilizzata, consentendo un tracciamento robusto per periodi prolungati. Per gestire le irregolarità intrinseche delle distribuzioni di punti 3D, proponiamo un meccanismo di Local Pair Attention. Questa strategia di contestualizzazione 3D sfrutta efficacemente le relazioni spaziali in 3D, formando vicinanze di feature informative per una stima precisa delle traiettorie 3D. Il nostro approccio centrato sul 3D supera significativamente i metodi esistenti per il tracciamento di punti 3D e migliora persino l'accuratezza del tracciamento 2D rispetto ai tradizionali tracker di pixel 2D quando è disponibile una profondità accurata. Supporta l'inferenza sia nelle coordinate della telecamera (cioè non stabilizzate) che in quelle del mondo, e i nostri risultati dimostrano che la compensazione del movimento della telecamera migliora le prestazioni del tracciamento. Il nostro approccio sostituisce le convenzionali vicinanze di correlazione quadrata 2D utilizzate nei precedenti tracker 2D e 3D, portando a risultati più robusti e accurati su vari benchmark di tracciamento di punti 3D. Pagina del progetto: https://tapip3d.github.io
English
We introduce TAPIP3D, a novel approach for long-term 3D point tracking in monocular RGB and RGB-D videos. TAPIP3D represents videos as camera-stabilized spatio-temporal feature clouds, leveraging depth and camera motion information to lift 2D video features into a 3D world space where camera motion is effectively canceled. TAPIP3D iteratively refines multi-frame 3D motion estimates within this stabilized representation, enabling robust tracking over extended periods. To manage the inherent irregularities of 3D point distributions, we propose a Local Pair Attention mechanism. This 3D contextualization strategy effectively exploits spatial relationships in 3D, forming informative feature neighborhoods for precise 3D trajectory estimation. Our 3D-centric approach significantly outperforms existing 3D point tracking methods and even enhances 2D tracking accuracy compared to conventional 2D pixel trackers when accurate depth is available. It supports inference in both camera coordinates (i.e., unstabilized) and world coordinates, and our results demonstrate that compensating for camera motion improves tracking performance. Our approach replaces the conventional 2D square correlation neighborhoods used in prior 2D and 3D trackers, leading to more robust and accurate results across various 3D point tracking benchmarks. Project Page: https://tapip3d.github.io
PDF82April 22, 2025