ChatPaper.aiChatPaper

TrackingWorld: Tracciamento monoculare 3D centrato sul mondo di quasi tutti i pixel

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

December 9, 2025
Autori: Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu
cs.AI

Abstract

Il tracciamento monoculare 3D mira a catturare il movimento a lungo termine dei pixel nello spazio 3D a partire da un singolo video monoculare e ha registrato rapidi progressi negli ultimi anni. Tuttavia, riteniamo che i metodi esistenti di tracciamento monoculare 3D siano ancora carenti nella separazione del movimento della fotocamera dal movimento dinamico in primo piano e non siano in grado di tracciare in modo denso i nuovi soggetti dinamici che emergono nei video. Per affrontare queste due limitazioni, proponiamo TrackingWorld, una nuova pipeline per il tracciamento 3D denso di quasi tutti i pixel all'interno di un sistema di coordinate 3D centrato sul mondo. In primo luogo, introduciamo un upsampler di tracciamento che solleva efficientemente le tracce 2D sparse arbitrarie in tracce 2D dense. Quindi, per generalizzare i metodi di tracciamento attuali ai nuovi oggetti emergenti, applichiamo l'upsampler a tutti i fotogrammi e riduciamo la ridondanza delle tracce 2D eliminando le tracce nelle regioni sovrapposte. Infine, presentiamo un framework efficiente basato sull'ottimizzazione per retroproiettare le tracce 2D dense in traiettorie 3D centrate sul mondo, stimando le pose della fotocamera e le coordinate 3D di queste tracce 2D. Valutazioni estese su dataset sia sintetici che del mondo reale dimostrano che il nostro sistema raggiunge un tracciamento 3D accurato e denso in un sistema di coordinate centrato sul mondo.
English
Monocular 3D tracking aims to capture the long-term motion of pixels in 3D space from a single monocular video and has witnessed rapid progress in recent years. However, we argue that the existing monocular 3D tracking methods still fall short in separating the camera motion from foreground dynamic motion and cannot densely track newly emerging dynamic subjects in the videos. To address these two limitations, we propose TrackingWorld, a novel pipeline for dense 3D tracking of almost all pixels within a world-centric 3D coordinate system. First, we introduce a tracking upsampler that efficiently lifts the arbitrary sparse 2D tracks into dense 2D tracks. Then, to generalize the current tracking methods to newly emerging objects, we apply the upsampler to all frames and reduce the redundancy of 2D tracks by eliminating the tracks in overlapped regions. Finally, we present an efficient optimization-based framework to back-project dense 2D tracks into world-centric 3D trajectories by estimating the camera poses and the 3D coordinates of these 2D tracks. Extensive evaluations on both synthetic and real-world datasets demonstrate that our system achieves accurate and dense 3D tracking in a world-centric coordinate frame.
PDF21December 11, 2025