ChatPaper.aiChatPaper

Track4World : Suivi dense 3D centré-monde prédictif de tous les pixels

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

March 3, 2026
Auteurs: Jiahao Lu, Jiayi Xu, Wenbo Hu, Ruijie Zhu, Chengfeng Zhao, Sai-Kit Yeung, Ying Shan, Yuan Liu
cs.AI

Résumé

L'estimation de la trajectoire 3D de chaque pixel à partir d'une vidéo monoculaire est cruciale et prometteuse pour une compréhension complète de la dynamique 3D des vidéos. Les travaux récents en suivi 3D monoculaire démontrent des performances impressionnantes, mais se limitent soit au suivi de points épars sur la première image, soit à un cadre d'optimisation lent pour le suivi dense. Dans cet article, nous proposons un modèle feedforward, appelé Track4World, permettant un suivi 3D holistique efficace de chaque pixel dans un système de coordonnées centré sur le monde. Construit sur la représentation scénique 3D globale encodée par un ViT de style VGGT, Track4World applique un nouveau schéma de corrélation 3D pour estimer simultanément le flux dense 2D et 3D pixel par pixel entre des paires d'images arbitraires. Le flux scénique estimé, ainsi que la géométrie 3D reconstruite, permettent un suivi 3D efficace ultérieur de chaque pixel de cette vidéo. Des expériences approfondies sur plusieurs benchmarks démontrent que notre approche surpasse constamment les méthodes existantes dans l'estimation de flux 2D/3D et le suivi 3D, soulignant sa robustesse et son extensibilité pour les tâches de reconstruction 4D en conditions réelles.
English
Estimating the 3D trajectory of every pixel from a monocular video is crucial and promising for a comprehensive understanding of the 3D dynamics of videos. Recent monocular 3D tracking works demonstrate impressive performance, but are limited to either tracking sparse points on the first frame or a slow optimization-based framework for dense tracking. In this paper, we propose a feedforward model, called Track4World, enabling an efficient holistic 3D tracking of every pixel in the world-centric coordinate system. Built on the global 3D scene representation encoded by a VGGT-style ViT, Track4World applies a novel 3D correlation scheme to simultaneously estimate the pixel-wise 2D and 3D dense flow between arbitrary frame pairs. The estimated scene flow, along with the reconstructed 3D geometry, enables subsequent efficient 3D tracking of every pixel of this video. Extensive experiments on multiple benchmarks demonstrate that our approach consistently outperforms existing methods in 2D/3D flow estimation and 3D tracking, highlighting its robustness and scalability for real-world 4D reconstruction tasks.
PDF122May 8, 2026