DELTA: Seguimiento 3D Denso, Eficiente y de Largo Alcance para cualquier video
DELTA: Dense Efficient Long-range 3D Tracking for any video
October 31, 2024
Autores: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang
cs.AI
Resumen
El seguimiento de movimiento 3D denso a partir de videos monoculares sigue siendo un desafío, especialmente cuando se busca una precisión a nivel de píxeles a lo largo de secuencias extensas. Presentamos \Approach, un método novedoso que realiza un seguimiento eficiente de cada píxel en el espacio 3D, permitiendo una estimación precisa del movimiento en videos completos. Nuestro enfoque aprovecha un mecanismo de atención global-local conjunto para el seguimiento a baja resolución, seguido por un upsampler basado en transformer para lograr predicciones de alta resolución. A diferencia de los métodos existentes, que se ven limitados por la ineficiencia computacional o el seguimiento disperso, \Approach ofrece un seguimiento 3D denso a escala, siendo más de 8 veces más rápido que los métodos anteriores y logrando una precisión de vanguardia. Además, exploramos el impacto de la representación de la profundidad en el rendimiento del seguimiento e identificamos la representación logarítmica de la profundidad como la elección óptima. Experimentos extensos demuestran la superioridad de \Approach en múltiples evaluaciones, logrando nuevos resultados de vanguardia tanto en tareas de seguimiento denso 2D como 3D. Nuestro método proporciona una solución robusta para aplicaciones que requieren un seguimiento de movimiento detallado a largo plazo en el espacio 3D.
English
Tracking dense 3D motion from monocular videos remains challenging,
particularly when aiming for pixel-level precision over long sequences. We
introduce \Approach, a novel method that efficiently tracks every pixel in 3D
space, enabling accurate motion estimation across entire videos. Our approach
leverages a joint global-local attention mechanism for reduced-resolution
tracking, followed by a transformer-based upsampler to achieve high-resolution
predictions. Unlike existing methods, which are limited by computational
inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale,
running over 8x faster than previous methods while achieving state-of-the-art
accuracy. Furthermore, we explore the impact of depth representation on
tracking performance and identify log-depth as the optimal choice. Extensive
experiments demonstrate the superiority of \Approach on multiple benchmarks,
achieving new state-of-the-art results in both 2D and 3D dense tracking tasks.
Our method provides a robust solution for applications requiring fine-grained,
long-term motion tracking in 3D space.Summary
AI-Generated Summary