ChatPaper.aiChatPaper

Rastreando Tudo em Todos os Lugares ao Mesmo Tempo

Tracking Everything Everywhere All at Once

June 8, 2023
Autores: Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely
cs.AI

Resumo

Apresentamos um novo método de otimização em tempo de teste para estimar movimento denso e de longo alcance a partir de uma sequência de vídeo. Os algoritmos anteriores de fluxo óptico ou rastreamento de partículas em vídeo geralmente operam dentro de janelas temporais limitadas, enfrentando dificuldades para rastrear através de oclusões e manter a consistência global das trajetórias de movimento estimadas. Propomos uma representação de movimento completa e globalmente consistente, denominada OmniMotion, que permite a estimação precisa e completa do movimento de cada pixel em um vídeo. O OmniMotion representa um vídeo usando um volume canônico quasi-3D e realiza o rastreamento pixel a pixel por meio de bijeções entre o espaço local e o espaço canônico. Essa representação nos permite garantir consistência global, rastrear através de oclusões e modelar qualquer combinação de movimento da câmera e do objeto. Avaliações extensivas no benchmark TAP-Vid e em gravações do mundo real mostram que nossa abordagem supera os métodos anteriores de última geração por uma grande margem, tanto quantitativa quanto qualitativamente. Consulte nossa página do projeto para mais resultados: http://omnimotion.github.io/
English
We present a new test-time optimization method for estimating dense and long-range motion from a video sequence. Prior optical flow or particle video tracking algorithms typically operate within limited temporal windows, struggling to track through occlusions and maintain global consistency of estimated motion trajectories. We propose a complete and globally consistent motion representation, dubbed OmniMotion, that allows for accurate, full-length motion estimation of every pixel in a video. OmniMotion represents a video using a quasi-3D canonical volume and performs pixel-wise tracking via bijections between local and canonical space. This representation allows us to ensure global consistency, track through occlusions, and model any combination of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and real-world footage show that our approach outperforms prior state-of-the-art methods by a large margin both quantitatively and qualitatively. See our project page for more results: http://omnimotion.github.io/
PDF102December 15, 2024