Track4World: Vorwärtsgerichtete weltzentrische dichte 3D-Verfolgung aller Pixel
Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels
March 3, 2026
Autoren: Jiahao Lu, Jiayi Xu, Wenbo Hu, Ruijie Zhu, Chengfeng Zhao, Sai-Kit Yeung, Ying Shan, Yuan Liu
cs.AI
Zusammenfassung
Die Schätzung der 3D-Trajektorie jedes Pixels aus einem monokularen Video ist entscheidend und vielversprechend für ein umfassendes Verständnis der 3D-Dynamik von Videos. Aktuelle Arbeiten zur monokularen 3D-Nachverfolgung zeigen beeindruckende Leistungen, sind jedoch entweder auf die Nachverfolgung spärlicher Punkte im ersten Frame oder auf einen langsamen, optimierungsbasierten Rahmen für die dichte Nachverfolgung beschränkt. In diesem Artikel stellen wir ein Vorwärtsmodell namens Track4World vor, das eine effiziente, ganzheitliche 3D-Nachverfolgung jedes Pixels im weltzentrierten Koordinatensystem ermöglicht. Aufbauend auf der globalen 3D-Szenendarstellung, die von einem VGGT-artigen ViT kodiert wird, wendet Track4World ein neuartiges 3D-Korrelationsschema an, um gleichzeitig den pixelweisen 2D- und 3D-Dichtenfluss zwischen beliebigen Frame-Paaren zu schätzen. Der geschätzte Szenenfluss ermöglicht zusammen mit der rekonstruierten 3D-Geometrie eine anschließend effiziente 3D-Nachverfolgung jedes Pixels dieses Videos. Umfangreiche Experimente auf mehreren Benchmarks zeigen, dass unser Ansatz bestehende Methoden in der 2D/3D-Fluss-Schätzung und 3D-Nachverfolgung konsequent übertrifft, was seine Robustheit und Skalierbarkeit für 4D-Rekonstruktionsaufgaben in der realen Welt unterstreicht.
English
Estimating the 3D trajectory of every pixel from a monocular video is crucial and promising for a comprehensive understanding of the 3D dynamics of videos. Recent monocular 3D tracking works demonstrate impressive performance, but are limited to either tracking sparse points on the first frame or a slow optimization-based framework for dense tracking. In this paper, we propose a feedforward model, called Track4World, enabling an efficient holistic 3D tracking of every pixel in the world-centric coordinate system. Built on the global 3D scene representation encoded by a VGGT-style ViT, Track4World applies a novel 3D correlation scheme to simultaneously estimate the pixel-wise 2D and 3D dense flow between arbitrary frame pairs. The estimated scene flow, along with the reconstructed 3D geometry, enables subsequent efficient 3D tracking of every pixel of this video. Extensive experiments on multiple benchmarks demonstrate that our approach consistently outperforms existing methods in 2D/3D flow estimation and 3D tracking, highlighting its robustness and scalability for real-world 4D reconstruction tasks.