ChatPaper.aiChatPaper

TrackingWorld: Seguimiento 3D monocéntrico en el mundo de casi todos los píxeles

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

December 9, 2025
Autores: Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu
cs.AI

Resumen

El seguimiento 3D monocular tiene como objetivo capturar el movimiento a largo plazo de los píxeles en el espacio 3D a partir de un único vídeo monocular y ha experimentado un rápido progreso en los últimos años. Sin embargo, sostenemos que los métodos existentes de seguimiento 3D monocular aún no logran separar adecuadamente el movimiento de la cámara del movimiento dinámico en primer plano y no pueden realizar un seguimiento denso de los nuevos sujetos dinámicos que aparecen en los vídeos. Para abordar estas dos limitaciones, proponemos TrackingWorld, una novedosa canalización para el seguimiento 3D denso de casi todos los píxeles dentro de un sistema de coordenadas 3D céntrico en el mundo. En primer lugar, introducimos un "upsampler" de seguimiento que eleva eficientemente las pistas 2D dispersas arbitrarias a pistas 2D densas. Luego, para generalizar los métodos de seguimiento actuales a objetos de nueva aparición, aplicamos el upsampler a todos los fotogramas y reducimos la redundancia de las pistas 2D eliminando las pistas en las regiones superpuestas. Finalmente, presentamos un marco eficiente basado en optimización para reproyectar las pistas 2D densas en trayectorias 3D céntricas en el mundo, mediante la estimación de las poses de la cámara y las coordenadas 3D de estas pistas 2D. Evaluaciones exhaustivas en conjuntos de datos tanto sintéticos como del mundo real demuestran que nuestro sistema logra un seguimiento 3D preciso y denso en un marco de coordenadas céntrico en el mundo.
English
Monocular 3D tracking aims to capture the long-term motion of pixels in 3D space from a single monocular video and has witnessed rapid progress in recent years. However, we argue that the existing monocular 3D tracking methods still fall short in separating the camera motion from foreground dynamic motion and cannot densely track newly emerging dynamic subjects in the videos. To address these two limitations, we propose TrackingWorld, a novel pipeline for dense 3D tracking of almost all pixels within a world-centric 3D coordinate system. First, we introduce a tracking upsampler that efficiently lifts the arbitrary sparse 2D tracks into dense 2D tracks. Then, to generalize the current tracking methods to newly emerging objects, we apply the upsampler to all frames and reduce the redundancy of 2D tracks by eliminating the tracks in overlapped regions. Finally, we present an efficient optimization-based framework to back-project dense 2D tracks into world-centric 3D trajectories by estimating the camera poses and the 3D coordinates of these 2D tracks. Extensive evaluations on both synthetic and real-world datasets demonstrate that our system achieves accurate and dense 3D tracking in a world-centric coordinate frame.
PDF21December 11, 2025