TrackingWorld: Weltzentrische monokulare 3D-Verfolgung nahezu aller Pixel
TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels
December 9, 2025
papers.authors: Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu
cs.AI
papers.abstract
Monokulares 3D-Tracking zielt darauf ab, die langfristige Bewegung von Pixeln im 3D-Raum aus einem einzelnen monokularen Video zu erfassen und hat in den letzten Jahren rasante Fortschritte erlebt. Wir vertreten jedoch die Auffassung, dass die bestehenden Methoden des monokularen 3D-Trackings nach wie vor nicht in der Lage sind, die Kamerabewegung von der dynamischen Vordergrundbewegung zu trennen, und neu auftretende dynamische Objekte in den Videos nicht dicht verfolgen können. Um diese beiden Einschränkungen zu adressieren, schlagen wir TrackingWorld vor, eine neuartige Pipeline für das dichte 3D-Tracking nahezu aller Pixel innerhalb eines weltzentrierten 3D-Koordinatensystems. Zunächst führen wir einen Tracking-Upsampler ein, der beliebige spärliche 2D-Tracks effizient in dichte 2D-Tracks überführt. Um die aktuellen Tracking-Methoden auf neu auftauchende Objekte zu verallgemeinern, wenden wir den Upsampler auf alle Frames an und reduzieren die Redundanz der 2D-Tracks, indem wir Tracks in überlappten Bereichen eliminieren. Schließlich präsentieren wir ein effizientes, optimierungsbasiertes Framework, um dichte 2D-Tracks durch Schätzung der Kameraposen und der 3D-Koordinaten dieser 2D-Tracks in weltzentrierte 3D-Trajektorien zurückzuprojizieren. Umfangreiche Auswertungen sowohl auf synthetischen als auch realen Datensätzen belegen, dass unser System präzises und dichtes 3D-Tracking in einem weltzentrierten Koordinatenrahmen erreicht.
English
Monocular 3D tracking aims to capture the long-term motion of pixels in 3D space from a single monocular video and has witnessed rapid progress in recent years. However, we argue that the existing monocular 3D tracking methods still fall short in separating the camera motion from foreground dynamic motion and cannot densely track newly emerging dynamic subjects in the videos. To address these two limitations, we propose TrackingWorld, a novel pipeline for dense 3D tracking of almost all pixels within a world-centric 3D coordinate system. First, we introduce a tracking upsampler that efficiently lifts the arbitrary sparse 2D tracks into dense 2D tracks. Then, to generalize the current tracking methods to newly emerging objects, we apply the upsampler to all frames and reduce the redundancy of 2D tracks by eliminating the tracks in overlapped regions. Finally, we present an efficient optimization-based framework to back-project dense 2D tracks into world-centric 3D trajectories by estimating the camera poses and the 3D coordinates of these 2D tracks. Extensive evaluations on both synthetic and real-world datasets demonstrate that our system achieves accurate and dense 3D tracking in a world-centric coordinate frame.