ChatPaper.aiChatPaper

Suivre tout partout en même temps

Tracking Everything Everywhere All at Once

June 8, 2023
Auteurs: Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely
cs.AI

Résumé

Nous présentons une nouvelle méthode d'optimisation au moment du test pour estimer un mouvement dense et à longue portée à partir d'une séquence vidéo. Les algorithmes précédents de flux optique ou de suivi de particules vidéo opèrent généralement dans des fenêtres temporelles limitées, peinant à suivre les objets à travers les occlusions et à maintenir la cohérence globale des trajectoires de mouvement estimées. Nous proposons une représentation complète et globalement cohérente du mouvement, appelée OmniMotion, qui permet une estimation précise et complète du mouvement de chaque pixel dans une vidéo. OmniMotion représente une vidéo en utilisant un volume canonique quasi-3D et effectue un suivi pixel par pixel via des bijections entre l'espace local et l'espace canonique. Cette représentation nous permet d'assurer la cohérence globale, de suivre les objets à travers les occlusions et de modéliser toute combinaison de mouvement de la caméra et des objets. Des évaluations approfondies sur le benchmark TAP-Vid et des séquences vidéo réelles montrent que notre approche surpasse les méthodes précédentes de pointe par une large marge, tant quantitativement que qualitativement. Consultez notre page de projet pour plus de résultats : http://omnimotion.github.io/
English
We present a new test-time optimization method for estimating dense and long-range motion from a video sequence. Prior optical flow or particle video tracking algorithms typically operate within limited temporal windows, struggling to track through occlusions and maintain global consistency of estimated motion trajectories. We propose a complete and globally consistent motion representation, dubbed OmniMotion, that allows for accurate, full-length motion estimation of every pixel in a video. OmniMotion represents a video using a quasi-3D canonical volume and performs pixel-wise tracking via bijections between local and canonical space. This representation allows us to ensure global consistency, track through occlusions, and model any combination of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and real-world footage show that our approach outperforms prior state-of-the-art methods by a large margin both quantitatively and qualitatively. See our project page for more results: http://omnimotion.github.io/
PDF102December 15, 2024