TAPIP3D: Rastreamento de Qualquer Ponto em Geometria 3D Persistente
TAPIP3D: Tracking Any Point in Persistent 3D Geometry
April 20, 2025
Autores: Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki
cs.AI
Resumo
Apresentamos o TAPIP3D, uma abordagem inovadora para o rastreamento de longo prazo de pontos 3D em vídeos monoculares RGB e RGB-D. O TAPIP3D representa vídeos como nuvens espaço-temporais de características estabilizadas em relação à câmera, utilizando informações de profundidade e movimento da câmera para elevar características 2D do vídeo para um espaço 3D onde o movimento da câmera é efetivamente cancelado. O TAPIP3D refina iterativamente as estimativas de movimento 3D multiframe dentro dessa representação estabilizada, permitindo um rastreamento robusto por períodos prolongados. Para lidar com as irregularidades inerentes das distribuições de pontos 3D, propomos um mecanismo de Atenção de Pares Locais. Essa estratégia de contextualização 3D explora efetivamente as relações espaciais em 3D, formando vizinhanças de características informativas para uma estimativa precisa de trajetórias 3D. Nossa abordagem centrada em 3D supera significativamente os métodos existentes de rastreamento de pontos 3D e até melhora a precisão do rastreamento 2D em comparação com rastreadores de pixels 2D convencionais quando a profundidade é precisa. Ela suporta inferência tanto em coordenadas da câmera (ou seja, não estabilizadas) quanto em coordenadas do mundo, e nossos resultados demonstram que a compensação do movimento da câmera melhora o desempenho do rastreamento. Nossa abordagem substitui as vizinhanças de correlação quadrada 2D convencionais usadas em rastreadores 2D e 3D anteriores, resultando em resultados mais robustos e precisos em vários benchmarks de rastreamento de pontos 3D. Página do Projeto: https://tapip3d.github.io
English
We introduce TAPIP3D, a novel approach for long-term 3D point tracking in
monocular RGB and RGB-D videos. TAPIP3D represents videos as camera-stabilized
spatio-temporal feature clouds, leveraging depth and camera motion information
to lift 2D video features into a 3D world space where camera motion is
effectively canceled. TAPIP3D iteratively refines multi-frame 3D motion
estimates within this stabilized representation, enabling robust tracking over
extended periods. To manage the inherent irregularities of 3D point
distributions, we propose a Local Pair Attention mechanism. This 3D
contextualization strategy effectively exploits spatial relationships in 3D,
forming informative feature neighborhoods for precise 3D trajectory estimation.
Our 3D-centric approach significantly outperforms existing 3D point tracking
methods and even enhances 2D tracking accuracy compared to conventional 2D
pixel trackers when accurate depth is available. It supports inference in both
camera coordinates (i.e., unstabilized) and world coordinates, and our results
demonstrate that compensating for camera motion improves tracking performance.
Our approach replaces the conventional 2D square correlation neighborhoods used
in prior 2D and 3D trackers, leading to more robust and accurate results across
various 3D point tracking benchmarks. Project Page: https://tapip3d.github.ioSummary
AI-Generated Summary