DELTA: Плотное эффективное трехмерное отслеживание на большие расстояния для любого видео
DELTA: Dense Efficient Long-range 3D Tracking for any video
October 31, 2024
Авторы: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang
cs.AI
Аннотация
Отслеживание плотного 3D движения по монокулярным видеороликам остается сложной задачей, особенно когда требуется пиксельная точность на протяжении длительных последовательностей. Мы представляем \Approach, новый метод, который эффективно отслеживает каждый пиксель в 3D пространстве, обеспечивая точную оценку движения на протяжении всего видео. Наш подход использует совместный глобальный-локальный механизм внимания для отслеживания с пониженным разрешением, а затем трансформаторный апсемплер для достижения предсказаний высокого разрешения. В отличие от существующих методов, ограниченных вычислительной неэффективностью или разреженным отслеживанием, \Approach обеспечивает плотное 3D отслеживание в масштабе, работая более чем в 8 раз быстрее, чем предыдущие методы, при этом достигая современной точности. Кроме того, мы исследуем влияние представления глубины на производительность отслеживания и определяем логарифмическую глубину как оптимальный выбор. Обширные эксперименты демонстрируют превосходство \Approach на нескольких бенчмарках, достигая новых современных результатов как в задачах плотного отслеживания в 2D, так и в 3D. Наш метод предоставляет надежное решение для приложений, требующих детального долгосрочного отслеживания движения в 3D пространстве.
English
Tracking dense 3D motion from monocular videos remains challenging,
particularly when aiming for pixel-level precision over long sequences. We
introduce \Approach, a novel method that efficiently tracks every pixel in 3D
space, enabling accurate motion estimation across entire videos. Our approach
leverages a joint global-local attention mechanism for reduced-resolution
tracking, followed by a transformer-based upsampler to achieve high-resolution
predictions. Unlike existing methods, which are limited by computational
inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale,
running over 8x faster than previous methods while achieving state-of-the-art
accuracy. Furthermore, we explore the impact of depth representation on
tracking performance and identify log-depth as the optimal choice. Extensive
experiments demonstrate the superiority of \Approach on multiple benchmarks,
achieving new state-of-the-art results in both 2D and 3D dense tracking tasks.
Our method provides a robust solution for applications requiring fine-grained,
long-term motion tracking in 3D space.Summary
AI-Generated Summary