ChatPaper.aiChatPaper

SpatialTracker : Suivi de n'importe quel pixel 2D dans l'espace 3D

SpatialTracker: Tracking Any 2D Pixels in 3D Space

April 5, 2024
Auteurs: Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou
cs.AI

Résumé

La récupération de mouvements denses et à longue portée entre pixels dans les vidéos constitue un problème complexe. Une partie de la difficulté provient du processus de projection 3D vers 2D, entraînant des occlusions et des discontinuités dans le domaine du mouvement 2D. Bien que le mouvement 2D puisse être complexe, nous postulons que le mouvement 3D sous-jacent peut souvent être simple et de faible dimension. Dans ce travail, nous proposons d'estimer les trajectoires de points dans l'espace 3D pour atténuer les problèmes causés par la projection d'images. Notre méthode, nommée SpatialTracker, élève les pixels 2D vers la 3D en utilisant des estimateurs de profondeur monoculaires, représente efficacement le contenu 3D de chaque image à l'aide d'une représentation en triplan, et effectue des mises à jour itératives à l'aide d'un transformateur pour estimer les trajectoires 3D. Le suivi en 3D nous permet d'exploiter des contraintes de rigidité maximale (ARAP) tout en apprenant simultanément un embedding de rigidité qui regroupe les pixels en différentes parties rigides. Une évaluation approfondie montre que notre approche atteint des performances de suivi de pointe, à la fois qualitativement et quantitativement, en particulier dans des scénarios difficiles tels que les rotations hors du plan.
English
Recovering dense and long-range pixel motion in videos is a challenging problem. Part of the difficulty arises from the 3D-to-2D projection process, leading to occlusions and discontinuities in the 2D motion domain. While 2D motion can be intricate, we posit that the underlying 3D motion can often be simple and low-dimensional. In this work, we propose to estimate point trajectories in 3D space to mitigate the issues caused by image projection. Our method, named SpatialTracker, lifts 2D pixels to 3D using monocular depth estimators, represents the 3D content of each frame efficiently using a triplane representation, and performs iterative updates using a transformer to estimate 3D trajectories. Tracking in 3D allows us to leverage as-rigid-as-possible (ARAP) constraints while simultaneously learning a rigidity embedding that clusters pixels into different rigid parts. Extensive evaluation shows that our approach achieves state-of-the-art tracking performance both qualitatively and quantitatively, particularly in challenging scenarios such as out-of-plane rotation.

Summary

AI-Generated Summary

PDF261December 15, 2024