DELTA: Rastreamento 3D Denso, Eficiente e de Longo Alcance para qualquer vídeo
DELTA: Dense Efficient Long-range 3D Tracking for any video
October 31, 2024
Autores: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang
cs.AI
Resumo
O rastreamento denso de movimento 3D a partir de vídeos monoculares ainda é desafiador, especialmente quando se busca precisão ao nível de pixel ao longo de sequências longas. Apresentamos \Approach, um método inovador que rastreia eficientemente cada pixel no espaço 3D, possibilitando uma estimativa precisa de movimento em vídeos completos. Nossa abordagem aproveita um mecanismo de atenção global-local conjunto para rastreamento de baixa resolução, seguido por um upsampler baseado em transformer para obter previsões de alta resolução. Ao contrário de métodos existentes, que são limitados pela ineficiência computacional ou rastreamento esparsamente distribuído, \Approach oferece rastreamento 3D denso em escala, sendo mais de 8 vezes mais rápido que métodos anteriores, ao mesmo tempo que alcança precisão de ponta. Além disso, exploramos o impacto da representação de profundidade no desempenho de rastreamento e identificamos a representação logarítmica de profundidade como a escolha ideal. Experimentos extensivos demonstram a superioridade de \Approach em múltiplos benchmarks, alcançando novos resultados de ponta em tarefas de rastreamento denso 2D e 3D. Nosso método oferece uma solução robusta para aplicações que exigem rastreamento de movimento detalhado e de longo prazo no espaço 3D.
English
Tracking dense 3D motion from monocular videos remains challenging,
particularly when aiming for pixel-level precision over long sequences. We
introduce \Approach, a novel method that efficiently tracks every pixel in 3D
space, enabling accurate motion estimation across entire videos. Our approach
leverages a joint global-local attention mechanism for reduced-resolution
tracking, followed by a transformer-based upsampler to achieve high-resolution
predictions. Unlike existing methods, which are limited by computational
inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale,
running over 8x faster than previous methods while achieving state-of-the-art
accuracy. Furthermore, we explore the impact of depth representation on
tracking performance and identify log-depth as the optimal choice. Extensive
experiments demonstrate the superiority of \Approach on multiple benchmarks,
achieving new state-of-the-art results in both 2D and 3D dense tracking tasks.
Our method provides a robust solution for applications requiring fine-grained,
long-term motion tracking in 3D space.Summary
AI-Generated Summary