ChatPaper.aiChatPaper

Track4World: Rastreamento Denso 3D World-centric Feedforward de Todos os Pixels

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

March 3, 2026
Autores: Jiahao Lu, Jiayi Xu, Wenbo Hu, Ruijie Zhu, Chengfeng Zhao, Sai-Kit Yeung, Ying Shan, Yuan Liu
cs.AI

Resumo

A estimativa da trajetória 3D de cada pixel a partir de um vídeo monocular é crucial e promissora para uma compreensão abrangente da dinâmica 3D dos vídeos. Trabalhos recentes de rastreamento 3D monocular demonstram desempenho impressionante, mas estão limitados ao rastreamento de pontos esparsos no primeiro *frame* ou a uma estrutura lenta baseada em otimização para rastreamento denso. Neste artigo, propomos um modelo *feedforward*, denominado Track4World, que possibilita um rastreamento 3D holístico eficiente de cada pixel no sistema de coordenadas centrado no mundo. Construído sobre a representação da cena 3D global codificada por um ViT no estilo VGGT, o Track4World aplica um novo esquema de correlação 3D para estimar simultaneamente o fluxo denso 2D e 3D a nível de pixel entre pares de *frames* arbitrários. O fluxo de cena estimado, juntamente com a geometria 3D reconstruída, permite o subsequente rastreamento 3D eficiente de cada pixel deste vídeo. Experimentos extensivos em múltiplos *benchmarks* demonstram que nossa abordagem supera consistentemente os métodos existentes na estimativa de fluxo 2D/3D e no rastreamento 3D, destacando sua robustez e escalabilidade para tarefas de reconstrução 4D do mundo real.
English
Estimating the 3D trajectory of every pixel from a monocular video is crucial and promising for a comprehensive understanding of the 3D dynamics of videos. Recent monocular 3D tracking works demonstrate impressive performance, but are limited to either tracking sparse points on the first frame or a slow optimization-based framework for dense tracking. In this paper, we propose a feedforward model, called Track4World, enabling an efficient holistic 3D tracking of every pixel in the world-centric coordinate system. Built on the global 3D scene representation encoded by a VGGT-style ViT, Track4World applies a novel 3D correlation scheme to simultaneously estimate the pixel-wise 2D and 3D dense flow between arbitrary frame pairs. The estimated scene flow, along with the reconstructed 3D geometry, enables subsequent efficient 3D tracking of every pixel of this video. Extensive experiments on multiple benchmarks demonstrate that our approach consistently outperforms existing methods in 2D/3D flow estimation and 3D tracking, highlighting its robustness and scalability for real-world 4D reconstruction tasks.
PDF112March 7, 2026