Пространственный трекер: отслеживание любых 2D пикселей в 3D пространстве
SpatialTracker: Tracking Any 2D Pixels in 3D Space
April 5, 2024
Авторы: Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou
cs.AI
Аннотация
Восстановление плотного и дальнего пиксельного движения в видео является сложной задачей. Часть трудностей возникает из-за процесса проекции 3D на 2D, что приводит к заслонам и разрывам в области движения 2D. Хотя 2D движение может быть сложным, мы предполагаем, что основное 3D движение часто может быть простым и низкоразмерным. В данной работе мы предлагаем оценивать точечные траектории в 3D пространстве для уменьшения проблем, вызванных проекцией изображения. Наш метод, названный SpatialTracker, преобразует 2D пиксели в 3D с использованием монокулярных оценщиков глубины, представляет 3D содержание каждого кадра эффективно с помощью трехплоскостного представления и выполняет итерационные обновления с использованием трансформера для оценки 3D траекторий. Отслеживание в 3D позволяет нам использовать ограничения "как можно жестко" (ARAP), одновременно обучая встраивание жесткости, которое кластеризует пиксели в различные жесткие части. Обширное оценивание показывает, что наш подход достигает передового уровня производительности отслеживания как качественно, так и количественно, особенно в сложных сценариях, таких как вращение вне плоскости.
English
Recovering dense and long-range pixel motion in videos is a challenging
problem. Part of the difficulty arises from the 3D-to-2D projection process,
leading to occlusions and discontinuities in the 2D motion domain. While 2D
motion can be intricate, we posit that the underlying 3D motion can often be
simple and low-dimensional. In this work, we propose to estimate point
trajectories in 3D space to mitigate the issues caused by image projection. Our
method, named SpatialTracker, lifts 2D pixels to 3D using monocular depth
estimators, represents the 3D content of each frame efficiently using a
triplane representation, and performs iterative updates using a transformer to
estimate 3D trajectories. Tracking in 3D allows us to leverage
as-rigid-as-possible (ARAP) constraints while simultaneously learning a
rigidity embedding that clusters pixels into different rigid parts. Extensive
evaluation shows that our approach achieves state-of-the-art tracking
performance both qualitatively and quantitatively, particularly in challenging
scenarios such as out-of-plane rotation.Summary
AI-Generated Summary