Track4World: Прямое плотное 3D отслеживание всех пикселей в мировых координатах
Track4World: Feedforward World-centric Dense 3D Tracking of All Pixels
March 3, 2026
Авторы: Jiahao Lu, Jiayi Xu, Wenbo Hu, Ruijie Zhu, Chengfeng Zhao, Sai-Kit Yeung, Ying Shan, Yuan Liu
cs.AI
Аннотация
Оценка трехмерной траектории каждого пикселя из моноскопического видео является ключевой и перспективной задачей для всестороннего понимания 3D-динамики видеопоследовательностей. Современные методы моноскопического 3D-трекинга демонстрируют впечатляющие результаты, но ограничены либо отслеживанием разреженных точек на первом кадре, либо медленными оптимизационными подходами для плотного трекинга. В данной статье мы предлагаем прямую модель под названием Track4World, которая обеспечивает эффективный целостный 3D-трекинг каждого пикселя в мировой системе координат. Построенная на основе глобального 3D-представления сцены, закодированного с помощью ViT в стиле VGGT, модель Track4World применяет новую схему 3D-корреляции для одновременной оценки плотного пиксельного 2D и 3D потока между произвольными парами кадров. Рассчитанный поток сцены вместе с реконструированной 3D-геометрией позволяет осуществлять последующее эффективное отслеживание в 3D-пространстве каждого пикселя видео. Многочисленные эксперименты на различных наборах данных показывают, что наш подход стабильно превосходит существующие методы в оценке 2D/3D потоков и 3D-трекинге, что подтверждает его надежность и масштабируемость для задач 4D-реконструкции в реальных условиях.
English
Estimating the 3D trajectory of every pixel from a monocular video is crucial and promising for a comprehensive understanding of the 3D dynamics of videos. Recent monocular 3D tracking works demonstrate impressive performance, but are limited to either tracking sparse points on the first frame or a slow optimization-based framework for dense tracking. In this paper, we propose a feedforward model, called Track4World, enabling an efficient holistic 3D tracking of every pixel in the world-centric coordinate system. Built on the global 3D scene representation encoded by a VGGT-style ViT, Track4World applies a novel 3D correlation scheme to simultaneously estimate the pixel-wise 2D and 3D dense flow between arbitrary frame pairs. The estimated scene flow, along with the reconstructed 3D geometry, enables subsequent efficient 3D tracking of every pixel of this video. Extensive experiments on multiple benchmarks demonstrate that our approach consistently outperforms existing methods in 2D/3D flow estimation and 3D tracking, highlighting its robustness and scalability for real-world 4D reconstruction tasks.