Rastrear Todo en Todas Partes al Mismo Tiempo
Tracking Everything Everywhere All at Once
June 8, 2023
Autores: Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely
cs.AI
Resumen
Presentamos un nuevo método de optimización en tiempo de prueba para estimar movimiento denso y de largo alcance a partir de una secuencia de video. Los algoritmos previos de flujo óptico o seguimiento de partículas en video suelen operar dentro de ventanas temporales limitadas, enfrentando dificultades para rastrear a través de oclusiones y mantener la consistencia global de las trayectorias de movimiento estimadas. Proponemos una representación de movimiento completa y globalmente consistente, denominada OmniMotion, que permite una estimación precisa y completa del movimiento de cada píxel en un video. OmniMotion representa un video utilizando un volumen canónico cuasi-3D y realiza un seguimiento píxel a píxel mediante biyecciones entre el espacio local y el canónico. Esta representación nos permite garantizar la consistencia global, rastrear a través de oclusiones y modelar cualquier combinación de movimiento de cámara y objetos. Evaluaciones exhaustivas en el benchmark TAP-Vid y en material de video del mundo real muestran que nuestro enfoque supera por un amplio margen a los métodos más avanzados anteriores, tanto cuantitativa como cualitativamente. Consulte nuestra página del proyecto para más resultados: http://omnimotion.github.io/
English
We present a new test-time optimization method for estimating dense and
long-range motion from a video sequence. Prior optical flow or particle video
tracking algorithms typically operate within limited temporal windows,
struggling to track through occlusions and maintain global consistency of
estimated motion trajectories. We propose a complete and globally consistent
motion representation, dubbed OmniMotion, that allows for accurate, full-length
motion estimation of every pixel in a video. OmniMotion represents a video
using a quasi-3D canonical volume and performs pixel-wise tracking via
bijections between local and canonical space. This representation allows us to
ensure global consistency, track through occlusions, and model any combination
of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and
real-world footage show that our approach outperforms prior state-of-the-art
methods by a large margin both quantitatively and qualitatively. See our
project page for more results: http://omnimotion.github.io/