ChatPaper.aiChatPaper

DELTA: Rastreamento 3D Denso, Eficiente e de Longo Alcance para qualquer vídeo

DELTA: Dense Efficient Long-range 3D Tracking for any video

October 31, 2024
Autores: Tuan Duc Ngo, Peiye Zhuang, Chuang Gan, Evangelos Kalogerakis, Sergey Tulyakov, Hsin-Ying Lee, Chaoyang Wang
cs.AI

Resumo

O rastreamento denso de movimento 3D a partir de vídeos monoculares ainda é desafiador, especialmente quando se busca precisão ao nível de pixel ao longo de sequências longas. Apresentamos \Approach, um método inovador que rastreia eficientemente cada pixel no espaço 3D, possibilitando uma estimativa precisa de movimento em vídeos completos. Nossa abordagem aproveita um mecanismo de atenção global-local conjunto para rastreamento de baixa resolução, seguido por um upsampler baseado em transformer para obter previsões de alta resolução. Ao contrário de métodos existentes, que são limitados pela ineficiência computacional ou rastreamento esparsamente distribuído, \Approach oferece rastreamento 3D denso em escala, sendo mais de 8 vezes mais rápido que métodos anteriores, ao mesmo tempo que alcança precisão de ponta. Além disso, exploramos o impacto da representação de profundidade no desempenho de rastreamento e identificamos a representação logarítmica de profundidade como a escolha ideal. Experimentos extensivos demonstram a superioridade de \Approach em múltiplos benchmarks, alcançando novos resultados de ponta em tarefas de rastreamento denso 2D e 3D. Nosso método oferece uma solução robusta para aplicações que exigem rastreamento de movimento detalhado e de longo prazo no espaço 3D.
English
Tracking dense 3D motion from monocular videos remains challenging, particularly when aiming for pixel-level precision over long sequences. We introduce \Approach, a novel method that efficiently tracks every pixel in 3D space, enabling accurate motion estimation across entire videos. Our approach leverages a joint global-local attention mechanism for reduced-resolution tracking, followed by a transformer-based upsampler to achieve high-resolution predictions. Unlike existing methods, which are limited by computational inefficiency or sparse tracking, \Approach delivers dense 3D tracking at scale, running over 8x faster than previous methods while achieving state-of-the-art accuracy. Furthermore, we explore the impact of depth representation on tracking performance and identify log-depth as the optimal choice. Extensive experiments demonstrate the superiority of \Approach on multiple benchmarks, achieving new state-of-the-art results in both 2D and 3D dense tracking tasks. Our method provides a robust solution for applications requiring fine-grained, long-term motion tracking in 3D space.

Summary

AI-Generated Summary

PDF92November 13, 2024