ChatPaper.aiChatPaper

Track4World: Seguimiento Denso 3D de Todos los Píxeles en Tiempo Real con Perspectiva Centrada en el Mundo

Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels

March 3, 2026
Autores: Jiahao Lu, Jiayi Xu, Wenbo Hu, Ruijie Zhu, Chengfeng Zhao, Sai-Kit Yeung, Ying Shan, Yuan Liu
cs.AI

Resumen

Estimar la trayectoria 3D de cada píxel a partir de un vídeo monocular es crucial y prometedor para una comprensión integral de la dinámica 3D de los vídeos. Los trabajos recientes de seguimiento 3D monocular demuestran un rendimiento impresionante, pero se limitan a rastrear puntos dispersos en el primer fotograma o a un marco de trabajo lento basado en optimización para el seguimiento denso. En este artículo, proponemos un modelo de propagación directa, denominado Track4World, que permite un seguimiento 3D holístico y eficiente de cada píxel en el sistema de coordenadas céntrico en el mundo. Basado en la representación global de la escena 3D codificada por un ViT de estilo VGGT, Track4World aplica un novedoso esquema de correlación 3D para estimar simultáneamente el flujo denso 2D y 3D a nivel de píxel entre pares de fotogramas arbitrarios. El flujo de escena estimado, junto con la geometría 3D reconstruida, permite el posterior seguimiento 3D eficiente de cada píxel de este vídeo. Experimentos exhaustivos en múltiples benchmarks demuestran que nuestro enfoque supera consistentemente a los métodos existentes en la estimación de flujo 2D/3D y el seguimiento 3D, destacando su robustez y escalabilidad para tareas de reconstrucción 4D en entornos reales.
English
Estimating the 3D trajectory of every pixel from a monocular video is crucial and promising for a comprehensive understanding of the 3D dynamics of videos. Recent monocular 3D tracking works demonstrate impressive performance, but are limited to either tracking sparse points on the first frame or a slow optimization-based framework for dense tracking. In this paper, we propose a feedforward model, called Track4World, enabling an efficient holistic 3D tracking of every pixel in the world-centric coordinate system. Built on the global 3D scene representation encoded by a VGGT-style ViT, Track4World applies a novel 3D correlation scheme to simultaneously estimate the pixel-wise 2D and 3D dense flow between arbitrary frame pairs. The estimated scene flow, along with the reconstructed 3D geometry, enables subsequent efficient 3D tracking of every pixel of this video. Extensive experiments on multiple benchmarks demonstrate that our approach consistently outperforms existing methods in 2D/3D flow estimation and 3D tracking, highlighting its robustness and scalability for real-world 4D reconstruction tasks.
PDF122May 8, 2026