TAPIP3D: Seguimiento de Cualquier Punto en Geometría 3D Persistente
TAPIP3D: Tracking Any Point in Persistent 3D Geometry
April 20, 2025
Autores: Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki
cs.AI
Resumen
Presentamos TAPIP3D, un enfoque novedoso para el seguimiento a largo plazo de puntos 3D en videos monoculares RGB y RGB-D. TAPIP3D representa los videos como nubes de características espacio-temporales estabilizadas respecto a la cámara, aprovechando la información de profundidad y movimiento de la cámara para elevar las características 2D del video a un espacio 3D donde el movimiento de la cámara se cancela efectivamente. TAPIP3D refina iterativamente las estimaciones de movimiento 3D multiframe dentro de esta representación estabilizada, permitiendo un seguimiento robusto durante períodos prolongados. Para manejar las irregularidades inherentes de las distribuciones de puntos 3D, proponemos un mecanismo de Atención de Pares Locales. Esta estrategia de contextualización 3D explota eficazmente las relaciones espaciales en 3D, formando vecindarios de características informativos para una estimación precisa de trayectorias 3D. Nuestro enfoque centrado en 3D supera significativamente los métodos existentes de seguimiento de puntos 3D e incluso mejora la precisión del seguimiento 2D en comparación con los rastreadores de píxeles 2D convencionales cuando se dispone de una profundidad precisa. Admite inferencia tanto en coordenadas de cámara (es decir, no estabilizadas) como en coordenadas del mundo, y nuestros resultados demuestran que compensar el movimiento de la cámara mejora el rendimiento del seguimiento. Nuestro enfoque reemplaza los vecindarios de correlación cuadrada 2D convencionales utilizados en rastreadores 2D y 3D anteriores, lo que lleva a resultados más robustos y precisos en varios puntos de referencia de seguimiento de puntos 3D. Página del proyecto: https://tapip3d.github.io
English
We introduce TAPIP3D, a novel approach for long-term 3D point tracking in
monocular RGB and RGB-D videos. TAPIP3D represents videos as camera-stabilized
spatio-temporal feature clouds, leveraging depth and camera motion information
to lift 2D video features into a 3D world space where camera motion is
effectively canceled. TAPIP3D iteratively refines multi-frame 3D motion
estimates within this stabilized representation, enabling robust tracking over
extended periods. To manage the inherent irregularities of 3D point
distributions, we propose a Local Pair Attention mechanism. This 3D
contextualization strategy effectively exploits spatial relationships in 3D,
forming informative feature neighborhoods for precise 3D trajectory estimation.
Our 3D-centric approach significantly outperforms existing 3D point tracking
methods and even enhances 2D tracking accuracy compared to conventional 2D
pixel trackers when accurate depth is available. It supports inference in both
camera coordinates (i.e., unstabilized) and world coordinates, and our results
demonstrate that compensating for camera motion improves tracking performance.
Our approach replaces the conventional 2D square correlation neighborhoods used
in prior 2D and 3D trackers, leading to more robust and accurate results across
various 3D point tracking benchmarks. Project Page: https://tapip3d.github.ioSummary
AI-Generated Summary