TAPIP3D: Seguimiento de Cualquier Punto en Geometría 3D Persistente

Resumen

Presentamos TAPIP3D, un enfoque novedoso para el seguimiento a largo plazo de puntos 3D en videos monoculares RGB y RGB-D. TAPIP3D representa los videos como nubes de características espacio-temporales estabilizadas respecto a la cámara, aprovechando la información de profundidad y movimiento de la cámara para elevar las características 2D del video a un espacio 3D donde el movimiento de la cámara se cancela efectivamente. TAPIP3D refina iterativamente las estimaciones de movimiento 3D multiframe dentro de esta representación estabilizada, permitiendo un seguimiento robusto durante períodos prolongados. Para manejar las irregularidades inherentes de las distribuciones de puntos 3D, proponemos un mecanismo de Atención de Pares Locales. Esta estrategia de contextualización 3D explota eficazmente las relaciones espaciales en 3D, formando vecindarios de características informativos para una estimación precisa de trayectorias 3D. Nuestro enfoque centrado en 3D supera significativamente los métodos existentes de seguimiento de puntos 3D e incluso mejora la precisión del seguimiento 2D en comparación con los rastreadores de píxeles 2D convencionales cuando se dispone de una profundidad precisa. Admite inferencia tanto en coordenadas de cámara (es decir, no estabilizadas) como en coordenadas del mundo, y nuestros resultados demuestran que compensar el movimiento de la cámara mejora el rendimiento del seguimiento. Nuestro enfoque reemplaza los vecindarios de correlación cuadrada 2D convencionales utilizados en rastreadores 2D y 3D anteriores, lo que lleva a resultados más robustos y precisos en varios puntos de referencia de seguimiento de puntos 3D. Página del proyecto: https://tapip3d.github.io

English

We introduce TAPIP3D, a novel approach for long-term 3D point tracking in monocular RGB and RGB-D videos. TAPIP3D represents videos as camera-stabilized spatio-temporal feature clouds, leveraging depth and camera motion information to lift 2D video features into a 3D world space where camera motion is effectively canceled. TAPIP3D iteratively refines multi-frame 3D motion estimates within this stabilized representation, enabling robust tracking over extended periods. To manage the inherent irregularities of 3D point distributions, we propose a Local Pair Attention mechanism. This 3D contextualization strategy effectively exploits spatial relationships in 3D, forming informative feature neighborhoods for precise 3D trajectory estimation. Our 3D-centric approach significantly outperforms existing 3D point tracking methods and even enhances 2D tracking accuracy compared to conventional 2D pixel trackers when accurate depth is available. It supports inference in both camera coordinates (i.e., unstabilized) and world coordinates, and our results demonstrate that compensating for camera motion improves tracking performance. Our approach replaces the conventional 2D square correlation neighborhoods used in prior 2D and 3D trackers, leading to more robust and accurate results across various 3D point tracking benchmarks. Project Page: https://tapip3d.github.io

TAPIP3D: Seguimiento de Cualquier Punto en Geometría 3D Persistente

TAPIP3D: Tracking Any Point in Persistent 3D Geometry

Resumen

Support