ChatPaper.aiChatPaper

Alles Overal Tegelijkertijd Volgen

Tracking Everything Everywhere All at Once

June 8, 2023
Auteurs: Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely
cs.AI

Samenvatting

We presenteren een nieuwe test-time optimalisatiemethode voor het schatten van dichte en langetermijnbeweging uit een videosequentie. Bestaande algoritmen voor optische stroming of deeltjesvideotracking werken doorgaans binnen beperkte temporele vensters, wat leidt tot problemen bij het volgen door occlusies en het behouden van globale consistentie van geschatte bewegingsbanen. Wij stellen een complete en globaal consistente bewegingrepresentatie voor, genaamd OmniMotion, die nauwkeurige, volledige bewegingsschatting van elke pixel in een video mogelijk maakt. OmniMotion representeert een video met behulp van een quasi-3D canoniek volume en voert pixelgewijze tracking uit via bijecties tussen lokale en canonieke ruimte. Deze representatie stelt ons in staat om globale consistentie te garanderen, door occlusies te volgen, en elke combinatie van camera- en objectbeweging te modelleren. Uitgebreide evaluaties op de TAP-Vid benchmark en real-world beelden tonen aan dat onze aanpak eerdere state-of-the-art methoden zowel kwantitatief als kwalitatief met een grote marge overtreft. Bekijk onze projectpagina voor meer resultaten: http://omnimotion.github.io/
English
We present a new test-time optimization method for estimating dense and long-range motion from a video sequence. Prior optical flow or particle video tracking algorithms typically operate within limited temporal windows, struggling to track through occlusions and maintain global consistency of estimated motion trajectories. We propose a complete and globally consistent motion representation, dubbed OmniMotion, that allows for accurate, full-length motion estimation of every pixel in a video. OmniMotion represents a video using a quasi-3D canonical volume and performs pixel-wise tracking via bijections between local and canonical space. This representation allows us to ensure global consistency, track through occlusions, and model any combination of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and real-world footage show that our approach outperforms prior state-of-the-art methods by a large margin both quantitatively and qualitatively. See our project page for more results: http://omnimotion.github.io/
PDF102December 15, 2024