ChatPaper.aiChatPaper

Tracciare Tutto Ovunque Tutto in Una Volta

Tracking Everything Everywhere All at Once

June 8, 2023
Autori: Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely
cs.AI

Abstract

Presentiamo un nuovo metodo di ottimizzazione al momento del test per stimare il movimento denso e a lungo raggio da una sequenza video. Gli algoritmi precedenti di flusso ottico o di tracciamento video delle particelle operano tipicamente all'interno di finestre temporali limitate, trovando difficoltà nel tracciare attraverso le occlusioni e nel mantenere la coerenza globale delle traiettorie di movimento stimate. Proponiamo una rappresentazione del movimento completa e globalmente coerente, denominata OmniMotion, che consente una stima accurata e completa del movimento di ogni pixel in un video. OmniMotion rappresenta un video utilizzando un volume canonico quasi-3D ed esegue il tracciamento pixel per pixel tramite biiezioni tra lo spazio locale e quello canonico. Questa rappresentazione ci permette di garantire la coerenza globale, tracciare attraverso le occlusioni e modellare qualsiasi combinazione di movimento della telecamera e degli oggetti. Valutazioni estensive sul benchmark TAP-Vid e su riprese del mondo reale dimostrano che il nostro approccio supera di gran lunga i metodi precedenti all'avanguardia, sia quantitativamente che qualitativamente. Visita la nostra pagina del progetto per ulteriori risultati: http://omnimotion.github.io/
English
We present a new test-time optimization method for estimating dense and long-range motion from a video sequence. Prior optical flow or particle video tracking algorithms typically operate within limited temporal windows, struggling to track through occlusions and maintain global consistency of estimated motion trajectories. We propose a complete and globally consistent motion representation, dubbed OmniMotion, that allows for accurate, full-length motion estimation of every pixel in a video. OmniMotion represents a video using a quasi-3D canonical volume and performs pixel-wise tracking via bijections between local and canonical space. This representation allows us to ensure global consistency, track through occlusions, and model any combination of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and real-world footage show that our approach outperforms prior state-of-the-art methods by a large margin both quantitatively and qualitatively. See our project page for more results: http://omnimotion.github.io/
PDF102December 15, 2024