ChatPaper.aiChatPaper

Отслеживание всего везде и одновременно

Tracking Everything Everywhere All at Once

June 8, 2023
Авторы: Qianqian Wang, Yen-Yu Chang, Ruojin Cai, Zhengqi Li, Bharath Hariharan, Aleksander Holynski, Noah Snavely
cs.AI

Аннотация

Мы представляем новый метод оптимизации во время тестирования для оценки плотного и дальнодействующего движения из видеопоследовательности. Предыдущие алгоритмы оптического потока или трекинга частиц в видео обычно работают в ограниченных временных окнах, испытывая трудности с отслеживанием через окклюзии и поддержанием глобальной согласованности оцененных траекторий движения. Мы предлагаем полное и глобально согласованное представление движения, названное OmniMotion, которое позволяет точно оценивать движение каждого пикселя в видео на всем его протяжении. OmniMotion представляет видео с использованием квази-3D канонического объема и выполняет покомпонентный трекинг через биекции между локальным и каноническим пространством. Это представление позволяет нам обеспечивать глобальную согласованность, отслеживать через окклюзии и моделировать любую комбинацию движения камеры и объектов. Обширные оценки на бенчмарке TAP-Vid и реальных видеоматериалах показывают, что наш подход значительно превосходит предыдущие передовые методы как количественно, так и качественно. Дополнительные результаты можно найти на нашей странице проекта: http://omnimotion.github.io/
English
We present a new test-time optimization method for estimating dense and long-range motion from a video sequence. Prior optical flow or particle video tracking algorithms typically operate within limited temporal windows, struggling to track through occlusions and maintain global consistency of estimated motion trajectories. We propose a complete and globally consistent motion representation, dubbed OmniMotion, that allows for accurate, full-length motion estimation of every pixel in a video. OmniMotion represents a video using a quasi-3D canonical volume and performs pixel-wise tracking via bijections between local and canonical space. This representation allows us to ensure global consistency, track through occlusions, and model any combination of camera and object motion. Extensive evaluations on the TAP-Vid benchmark and real-world footage show that our approach outperforms prior state-of-the-art methods by a large margin both quantitatively and qualitatively. See our project page for more results: http://omnimotion.github.io/
PDF102December 15, 2024