ChatPaper.aiChatPaper

TAPIP3D: Verfolgung beliebiger Punkte in persistenter 3D-Geometrie

TAPIP3D: Tracking Any Point in Persistent 3D Geometry

April 20, 2025
Autoren: Bowei Zhang, Lei Ke, Adam W. Harley, Katerina Fragkiadaki
cs.AI

Zusammenfassung

Wir stellen TAPIP3D vor, einen neuartigen Ansatz zur langfristigen 3D-Punktverfolgung in monokularen RGB- und RGB-D-Videos. TAPIP3D repräsentiert Videos als kamerastabilisierte räumlich-zeitliche Merkmalswolken und nutzt Tiefen- und Kamerabewegungsinformationen, um 2D-Videomerkmale in einen 3D-Weltraum zu heben, in dem die Kamerabewegung effektiv aufgehoben wird. TAPIP3D verfeinert iterativ die Schätzung der 3D-Bewegung über mehrere Frames innerhalb dieser stabilisierten Darstellung, was eine robuste Verfolgung über längere Zeiträume ermöglicht. Um die inhärenten Unregelmäßigkeiten der 3D-Punktverteilungen zu bewältigen, schlagen wir einen Local Pair Attention-Mechanismus vor. Diese 3D-Kontextualisierungsstrategie nutzt räumliche Beziehungen in 3D effektiv aus und bildet informative Merkmalsnachbarschaften für eine präzise 3D-Trajektorienschätzung. Unser 3D-zentrierter Ansatz übertrifft bestehende Methoden zur 3D-Punktverfolgung deutlich und verbessert sogar die 2D-Verfolgungsgenauigkeit im Vergleich zu herkömmlichen 2D-Pixel-Trackern, wenn genaue Tiefeninformationen verfügbar sind. Er unterstützt die Inferenz sowohl in Kamerakoordinaten (d.h. nicht stabilisiert) als auch in Weltkoordinaten, und unsere Ergebnisse zeigen, dass die Kompensation der Kamerabewegung die Verfolgungsleistung verbessert. Unser Ansatz ersetzt die konventionellen 2D-quadratischen Korrelationsnachbarschaften, die in früheren 2D- und 3D-Trackern verwendet wurden, und führt zu robusteren und genaueren Ergebnissen in verschiedenen 3D-Punktverfolgungs-Benchmarks. Projektseite: https://tapip3d.github.io
English
We introduce TAPIP3D, a novel approach for long-term 3D point tracking in monocular RGB and RGB-D videos. TAPIP3D represents videos as camera-stabilized spatio-temporal feature clouds, leveraging depth and camera motion information to lift 2D video features into a 3D world space where camera motion is effectively canceled. TAPIP3D iteratively refines multi-frame 3D motion estimates within this stabilized representation, enabling robust tracking over extended periods. To manage the inherent irregularities of 3D point distributions, we propose a Local Pair Attention mechanism. This 3D contextualization strategy effectively exploits spatial relationships in 3D, forming informative feature neighborhoods for precise 3D trajectory estimation. Our 3D-centric approach significantly outperforms existing 3D point tracking methods and even enhances 2D tracking accuracy compared to conventional 2D pixel trackers when accurate depth is available. It supports inference in both camera coordinates (i.e., unstabilized) and world coordinates, and our results demonstrate that compensating for camera motion improves tracking performance. Our approach replaces the conventional 2D square correlation neighborhoods used in prior 2D and 3D trackers, leading to more robust and accurate results across various 3D point tracking benchmarks. Project Page: https://tapip3d.github.io

Summary

AI-Generated Summary

PDF72April 22, 2025