ChatPaper.aiChatPaper

TrackingWorld: Wereldcentrische monoscopische 3D-tracking van bijna alle pixels

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

December 9, 2025
Auteurs: Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu
cs.AI

Samenvatting

Monoculaire 3D-tracking heeft als doel de langdurige beweging van pixels in 3D-ruimte vast te leggen vanuit een enkele monoculaire video en heeft de afgelopen jaren een snelle vooruitgang geboekt. Wij stellen echter dat bestaande monoculaire 3D-trackingmethoden tekortschieten in het scheiden van camerabeweging van dynamische voorgrondbeweging en niet in staat zijn nieuw opkomende dynamische objecten in de video's dicht te volgen. Om deze twee beperkingen aan te pakken, presenteren wij TrackingWorld, een nieuwe pijplijn voor dichte 3D-tracking van bijna alle pixels binnen een wereldgecentreerd 3D-coördinatenstelsel. Ten eerste introduceren wij een tracking-upsampler die efficiënt willekeurige sparse 2D-tracks omzet in dichte 2D-tracks. Vervolgens passen wij de upsampler toe op alle frames om bestaande trackingmethoden te generaliseren naar nieuw opkomende objecten, en reduceren wij de redundantie van 2D-tracks door tracks in overlappende regio's te elimineren. Tot slot presenteren wij een efficiënt op optimalisatie gebaseerd raamwerk om dichte 2D-tracks terug te projecteren naar wereldgecentreerde 3D-trajecten door de cameraposities en de 3D-coördinaten van deze 2D-tracks te schatten. Uitgebreide evaluaties op zowel synthetische als real-world datasets tonen aan dat ons systeem accurate en dichte 3D-tracking bereikt in een wereldgecentreerd coördinatenstelsel.
English
Monocular 3D tracking aims to capture the long-term motion of pixels in 3D space from a single monocular video and has witnessed rapid progress in recent years. However, we argue that the existing monocular 3D tracking methods still fall short in separating the camera motion from foreground dynamic motion and cannot densely track newly emerging dynamic subjects in the videos. To address these two limitations, we propose TrackingWorld, a novel pipeline for dense 3D tracking of almost all pixels within a world-centric 3D coordinate system. First, we introduce a tracking upsampler that efficiently lifts the arbitrary sparse 2D tracks into dense 2D tracks. Then, to generalize the current tracking methods to newly emerging objects, we apply the upsampler to all frames and reduce the redundancy of 2D tracks by eliminating the tracks in overlapped regions. Finally, we present an efficient optimization-based framework to back-project dense 2D tracks into world-centric 3D trajectories by estimating the camera poses and the 3D coordinates of these 2D tracks. Extensive evaluations on both synthetic and real-world datasets demonstrate that our system achieves accurate and dense 3D tracking in a world-centric coordinate frame.
PDF21December 11, 2025