ChatPaper.aiChatPaper

Alles überall gleichzeitig verfolgen

Tracking Everything Everywhere All at Once

June 8, 2023
Autoren: Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely
cs.AI

Zusammenfassung

Wir stellen eine neue Methode zur Testzeitoptimierung vor, um dichte und weitreichende Bewegungen aus einer Videosequenz zu schätzen. Bisherige Algorithmen für optischen Fluss oder Partikel-Video-Tracking arbeiten typischerweise innerhalb begrenzter zeitlicher Fenster und haben Schwierigkeiten, Verdeckungen zu verfolgen und die globale Konsistenz der geschätzten Bewegungspfade aufrechtzuerhalten. Wir schlagen eine vollständige und global konsistente Bewegungsdarstellung vor, die wir OmniMotion nennen, die eine präzise, vollständige Bewegungsschätzung für jedes Pixel in einem Video ermöglicht. OmniMotion repräsentiert ein Video mithilfe eines quasi-3D-kanonischen Volumens und führt eine pixelweise Verfolgung durch Bijektionen zwischen lokalem und kanonischem Raum durch. Diese Darstellung ermöglicht es uns, globale Konsistenz sicherzustellen, Verdeckungen zu verfolgen und jede Kombination von Kamera- und Objektbewegungen zu modellieren. Umfangreiche Auswertungen auf dem TAP-Vid-Benchmark und realen Aufnahmen zeigen, dass unser Ansatz bisherige state-of-the-art-Methoden sowohl quantitativ als auch qualitativ deutlich übertrifft. Weitere Ergebnisse finden Sie auf unserer Projektseite: http://omnimotion.github.io/
English
We present a new test-time optimization method for estimating dense and long-range motion from a video sequence. Prior optical flow or particle video tracking algorithms typically operate within limited temporal windows, struggling to track through occlusions and maintain global consistency of estimated motion trajectories. We propose a complete and globally consistent motion representation, dubbed OmniMotion, that allows for accurate, full-length motion estimation of every pixel in a video. OmniMotion represents a video using a quasi-3D canonical volume and performs pixel-wise tracking via bijections between local and canonical space. This representation allows us to ensure global consistency, track through occlusions, and model any combination of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and real-world footage show that our approach outperforms prior state-of-the-art methods by a large margin both quantitatively and qualitatively. See our project page for more results: http://omnimotion.github.io/
PDF102December 15, 2024