DELTA: Seguimiento 3D Denso, Eficiente y de Largo Alcance para cualquier video

Resumen

El seguimiento de movimiento 3D denso a partir de videos monoculares sigue siendo un desafío, especialmente cuando se busca una precisión a nivel de píxeles a lo largo de secuencias extensas. Presentamos \Approach, un método novedoso que realiza un seguimiento eficiente de cada píxel en el espacio 3D, permitiendo una estimación precisa del movimiento en videos completos. Nuestro enfoque aprovecha un mecanismo de atención global-local conjunto para el seguimiento a baja resolución, seguido por un upsampler basado en transformer para lograr predicciones de alta resolución. A diferencia de los métodos existentes, que se ven limitados por la ineficiencia computacional o el seguimiento disperso, \Approach ofrece un seguimiento 3D denso a escala, siendo más de 8 veces más rápido que los métodos anteriores y logrando una precisión de vanguardia. Además, exploramos el impacto de la representación de la profundidad en el rendimiento del seguimiento e identificamos la representación logarítmica de la profundidad como la elección óptima. Experimentos extensos demuestran la superioridad de \Approach en múltiples evaluaciones, logrando nuevos resultados de vanguardia tanto en tareas de seguimiento denso 2D como 3D. Nuestro método proporciona una solución robusta para aplicaciones que requieren un seguimiento de movimiento detallado a largo plazo en el espacio 3D.

English

Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce \Approach, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of \Approach on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.

DELTA: Seguimiento 3D Denso, Eficiente y de Largo Alcance para cualquier video

DELTA: Dense Efficient Long-range 3D Tracking for any video

Resumen

Support