ChatPaper.aiChatPaper

TrackingWorld : Suivi monoculaire 3D centré sur le monde de presque tous les pixels

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

December 9, 2025
papers.authors: Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu
cs.AI

papers.abstract

Le suivi 3D monoculaire vise à capturer le mouvement à long terme des pixels dans l'espace 3D à partir d'une seule vidéo monoculaire et a connu des progrès rapides ces dernières années. Cependant, nous soutenons que les méthodes existantes de suivi 3D monoculaire échouent encore à séparer le mouvement de la caméra du mouvement dynamique au premier plan et ne peuvent pas suivre de manière dense les nouveaux sujets dynamiques apparaissant dans les vidéos. Pour remédier à ces deux limitations, nous proposons TrackingWorld, une nouvelle pipeline pour le suivi 3D dense de presque tous les pixels dans un système de coordonnées 3D centré sur le monde. Premièrement, nous introduisons un suréchantillonneur de suivi qui relève efficacement des pistes 2D arbitrairement éparses en pistes 2D denses. Ensuite, pour généraliser les méthodes de suivi actuelles aux nouveaux objets apparaissant, nous appliquons le suréchantillonneur à toutes les images et réduisons la redondance des pistes 2D en éliminant les pistes dans les régions chevauchantes. Enfin, nous présentons un cadre d'optimisation efficace pour rétroprojeter les pistes 2D denses en trajectoires 3D centrées sur le monde en estimant les poses de la caméra et les coordonnées 3D de ces pistes 2D. Des évaluations approfondies sur des ensembles de données synthétiques et réelles démontrent que notre système atteint un suivi 3D précis et dense dans un repère de coordonnées centré sur le monde.
English
Monocular 3D tracking aims to capture the long-term motion of pixels in 3D space from a single monocular video and has witnessed rapid progress in recent years. However, we argue that the existing monocular 3D tracking methods still fall short in separating the camera motion from foreground dynamic motion and cannot densely track newly emerging dynamic subjects in the videos. To address these two limitations, we propose TrackingWorld, a novel pipeline for dense 3D tracking of almost all pixels within a world-centric 3D coordinate system. First, we introduce a tracking upsampler that efficiently lifts the arbitrary sparse 2D tracks into dense 2D tracks. Then, to generalize the current tracking methods to newly emerging objects, we apply the upsampler to all frames and reduce the redundancy of 2D tracks by eliminating the tracks in overlapped regions. Finally, we present an efficient optimization-based framework to back-project dense 2D tracks into world-centric 3D trajectories by estimating the camera poses and the 3D coordinates of these 2D tracks. Extensive evaluations on both synthetic and real-world datasets demonstrate that our system achieves accurate and dense 3D tracking in a world-centric coordinate frame.
PDF21December 11, 2025