ChatPaper.aiChatPaper

TrackingWorld: Rastreamento Monocular 3D Centrado no Mundo de Quase Todos os Pixels

TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels

December 9, 2025
Autores: Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu
cs.AI

Resumo

O rastreamento 3D monocular visa capturar o movimento de longo prazo de pixels no espaço 3D a partir de um único vídeo monocular e tem registrado progressos rápidos nos últimos anos. No entanto, argumentamos que os métodos existentes de rastreamento 3D monocular ainda são insuficientes para separar o movimento da câmera do movimento dinâmico em primeiro plano e não conseguem rastrear densamente novos sujeitos dinâmicos que emergem nos vídeos. Para abordar essas duas limitações, propomos o TrackingWorld, um pipeline inovador para rastreamento 3D denso de quase todos os pixels dentro de um sistema de coordenadas 3D centrado no mundo. Primeiro, introduzimos um upsampler de rastreamento que eleva eficientemente rastreamentos 2D esparsos arbitrários para rastreamentos 2D densos. Em seguida, para generalizar os métodos de rastreamento atuais para objetos recém-emergentes, aplicamos o upsampler a todos os quadros e reduzimos a redundância dos rastreamentos 2D eliminando os rastreamentos em regiões sobrepostas. Finalmente, apresentamos uma estrutura eficiente baseada em otimização para retroprojetar rastreamentos 2D densos em trajetórias 3D centradas no mundo, estimando as poses da câmera e as coordenadas 3D desses rastreamentos 2D. Avaliações extensivas em conjuntos de dados sintéticos e do mundo real demonstram que nosso sistema alcança rastreamento 3D preciso e denso em um sistema de coordenadas centrado no mundo.
English
Monocular 3D tracking aims to capture the long-term motion of pixels in 3D space from a single monocular video and has witnessed rapid progress in recent years. However, we argue that the existing monocular 3D tracking methods still fall short in separating the camera motion from foreground dynamic motion and cannot densely track newly emerging dynamic subjects in the videos. To address these two limitations, we propose TrackingWorld, a novel pipeline for dense 3D tracking of almost all pixels within a world-centric 3D coordinate system. First, we introduce a tracking upsampler that efficiently lifts the arbitrary sparse 2D tracks into dense 2D tracks. Then, to generalize the current tracking methods to newly emerging objects, we apply the upsampler to all frames and reduce the redundancy of 2D tracks by eliminating the tracks in overlapped regions. Finally, we present an efficient optimization-based framework to back-project dense 2D tracks into world-centric 3D trajectories by estimating the camera poses and the 3D coordinates of these 2D tracks. Extensive evaluations on both synthetic and real-world datasets demonstrate that our system achieves accurate and dense 3D tracking in a world-centric coordinate frame.
PDF62February 27, 2026