Track4World: Feedforward wereldgecentreerde dichte 3D-tracking van alle pixels
Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels
March 3, 2026
Auteurs: Jiahao Lu, Jiayi Xu, Wenbo Hu, Ruijie Zhu, Chengfeng Zhao, Sai-Kit Yeung, Ying Shan, Yuan Liu
cs.AI
Samenvatting
Het schatten van de 3D-trajectorie van elke pixel uit een monovideo is cruciaal en veelbelovend voor een volledig begrip van de 3D-dynamiek in video's. Recente monovisionaire 3D-trackingmethoden tonen indrukwekkende prestaties, maar zijn beperkt tot het volgen van slechts enkele punten in het eerste frame of tot een traag, op optimalisatie gebaseerd framework voor dichte tracking. In dit artikel stellen we een feedforward-model voor, genaamd Track4World, dat een efficiënte, holistische 3D-tracking van elke pixel in een wereldgericht coördinatenstelsel mogelijk maakt. Gebouwd op de globale 3D-scènevoorstelling die wordt gecodeerd door een VGGT-stijl ViT, past Track4World een nieuwe 3D-correlatiemethode toe om gelijktijdig de pixelgewijze 2D- en 3D-dichte stroom tussen willekeurige frameparen te schatten. De geschatte scènestroom, samen met de gereconstrueerde 3D-geometrie, maakt vervolgens efficiënte 3D-tracking van elke pixel in de video mogelijk. Uitgebreide experimenten op meerdere benchmarks tonen aan dat onze aanpak consequent beter presteert dan bestaande methoden voor 2D/3D-stroomschatting en 3D-tracking, wat de robuustheid en schaalbaarheid voor real-world 4D-reconstructietaken benadrukt.
English
Estimating the 3D trajectory of every pixel from a monocular video is crucial and promising for a comprehensive understanding of the 3D dynamics of videos. Recent monocular 3D tracking works demonstrate impressive performance, but are limited to either tracking sparse points on the first frame or a slow optimization-based framework for dense tracking. In this paper, we propose a feedforward model, called Track4World, enabling an efficient holistic 3D tracking of every pixel in the world-centric coordinate system. Built on the global 3D scene representation encoded by a VGGT-style ViT, Track4World applies a novel 3D correlation scheme to simultaneously estimate the pixel-wise 2D and 3D dense flow between arbitrary frame pairs. The estimated scene flow, along with the reconstructed 3D geometry, enables subsequent efficient 3D tracking of every pixel of this video. Extensive experiments on multiple benchmarks demonstrate that our approach consistently outperforms existing methods in 2D/3D flow estimation and 3D tracking, highlighting its robustness and scalability for real-world 4D reconstruction tasks.