ChatPaper.aiChatPaper

TrackingWorld: 거의 모든 픽셀의 월드 중심 단안 3D 추적

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

December 9, 2025
저자: Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu
cs.AI

초록

단안 3D 추적은 단일 단안 비디오에서 픽셀의 장기적 3D 공간 운동을 포착하는 것을 목표로 하며, 최근 빠른 발전을 이루고 있습니다. 그러나 기존 단안 3D 추적 방법들은 여전히 카메라 운동을 전경 동적 운동으로부터 분리하는 데 한계가 있으며, 비디오에서 새롭게 등장하는 동적 객체를 밀집하게 추적하지 못한다는 문제점이 있습니다. 이러한 두 가지 한계를 해결하기 위해 우리는 세계 중심(world-centric) 3D 좌표계 내에서 거의 모든 픽셀의 밀집한 3D 추적을 위한 새로운 파이프라인인 TrackingWorld를 제안합니다. 먼저, 임의의 희소 2D 트랙을 효율적으로 고밀도 2D 트랙으로 전환하는 추적 업샘플러를 도입합니다. 그런 다음 현재 추적 방법을 새롭게 등장하는 객체로 일반화하기 위해 업샘플러를 모든 프레임에 적용하고 중복 영역의 트랙을 제거하여 2D 트랙의 중복성을 줄입니다. 마지막으로, 효율적인 최적화 기반 프레임워크를 통해 카메라 포즈와 이러한 2D 트랙의 3D 좌표를 추정함으로써 고밀도 2D 트랙을 세계 중심 3D 궤적으로 역투영하는 방법을 제시합니다. 합성 및 실제 데이터셋에 대한 포괄적 평가를 통해 우리 시스템이 세계 중심 좌표계에서 정확하고 밀집한 3D 추적을 달성함을 입증합니다.
English
Monocular 3D tracking aims to capture the long-term motion of pixels in 3D space from a single monocular video and has witnessed rapid progress in recent years. However, we argue that the existing monocular 3D tracking methods still fall short in separating the camera motion from foreground dynamic motion and cannot densely track newly emerging dynamic subjects in the videos. To address these two limitations, we propose TrackingWorld, a novel pipeline for dense 3D tracking of almost all pixels within a world-centric 3D coordinate system. First, we introduce a tracking upsampler that efficiently lifts the arbitrary sparse 2D tracks into dense 2D tracks. Then, to generalize the current tracking methods to newly emerging objects, we apply the upsampler to all frames and reduce the redundancy of 2D tracks by eliminating the tracks in overlapped regions. Finally, we present an efficient optimization-based framework to back-project dense 2D tracks into world-centric 3D trajectories by estimating the camera poses and the 3D coordinates of these 2D tracks. Extensive evaluations on both synthetic and real-world datasets demonstrate that our system achieves accurate and dense 3D tracking in a world-centric coordinate frame.
PDF21December 11, 2025