TrackingWorld: Мироцентричное моноокулярное 3D-отслеживание практически всех пикселей
TrackingWorld: World-centric Monocular 3D Tracking of Almost All Pixels
December 9, 2025
Авторы: Jiahao Lu, Weitao Xiong, Jiacheng Deng, Peng Li, Tianyu Huang, Zhiyang Dou, Cheng Lin, Sai-Kit Yeung, Yuan Liu
cs.AI
Аннотация
Монокулярное 3D-отслеживание ставит целью захват долговременного движения пикселей в трехмерном пространстве по одному монокулярному видео и демонстрирует быстрый прогресс в последние годы. Однако мы полагаем, что существующие методы монокулярного 3D-отслеживания все еще не способны адекватно отделить движение камеры от динамического движения переднего плана и не могут плотно отслеживать вновь появляющиеся динамические объекты в видео. Для устранения этих двух ограничений мы предлагаем TrackingWorld — новый конвейер для плотного 3D-отслеживания практически всех пикселей в мироцентричной системе 3D-координат. Во-первых, мы вводим апсемплер отслеживания, который эффективно преобразует произвольные разреженные 2D-треки в плотные 2D-треки. Затем, чтобы обобщить существующие методы отслеживания на вновь появляющиеся объекты, мы применяем апсемплер ко всем кадрам и уменьшаем избыточность 2D-треков, устраняя треки в перекрывающихся областях. Наконец, мы представляем эффективную оптимизационную framework для обратного проецирования плотных 2D-треков в мироцентричные 3D-траектории путем оценки поз камеры и 3D-координат этих 2D-треков. Обширные оценки на синтетических и реальных наборах данных показывают, что наша система достигает точного и плотного 3D-отслеживания в мироцентричной системе координат.
English
Monocular 3D tracking aims to capture the long-term motion of pixels in 3D space from a single monocular video and has witnessed rapid progress in recent years. However, we argue that the existing monocular 3D tracking methods still fall short in separating the camera motion from foreground dynamic motion and cannot densely track newly emerging dynamic subjects in the videos. To address these two limitations, we propose TrackingWorld, a novel pipeline for dense 3D tracking of almost all pixels within a world-centric 3D coordinate system. First, we introduce a tracking upsampler that efficiently lifts the arbitrary sparse 2D tracks into dense 2D tracks. Then, to generalize the current tracking methods to newly emerging objects, we apply the upsampler to all frames and reduce the redundancy of 2D tracks by eliminating the tracks in overlapped regions. Finally, we present an efficient optimization-based framework to back-project dense 2D tracks into world-centric 3D trajectories by estimating the camera poses and the 3D coordinates of these 2D tracks. Extensive evaluations on both synthetic and real-world datasets demonstrate that our system achieves accurate and dense 3D tracking in a world-centric coordinate frame.