ChatPaper.aiChatPaper

CoTracker: Вместе отслеживать лучше

CoTracker: It is Better to Track Together

July 14, 2023
Авторы: Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht
cs.AI

Аннотация

Методы прогнозирования движения в видео либо оценивают мгновенное движение всех точек в заданном кадре с использованием оптического потока, либо независимо отслеживают движение отдельных точек на протяжении всего видео. Последнее справедливо даже для мощных методов глубокого обучения, которые могут отслеживать точки через окклюзии. Индивидуальное отслеживание точек игнорирует сильную корреляцию, которая может существовать между точками, например, из-за их принадлежности к одному физическому объекту, что потенциально снижает производительность. В данной статье мы предлагаем CoTracker — архитектуру, которая совместно отслеживает несколько точек на протяжении всего видео. Эта архитектура объединяет несколько идей из литературы по оптическому потоку и отслеживанию в новом, гибком и мощном дизайне. Она основана на трансформерной сети, которая моделирует корреляцию различных точек во времени с помощью специализированных слоев внимания. Трансформер итеративно обновляет оценку нескольких траекторий. Он может применяться в скользящем окне для очень длинных видео, для чего мы разработали развернутый цикл обучения. Он может совместно отслеживать от одной до нескольких точек и поддерживает добавление новых точек для отслеживания в любой момент времени. В результате получается гибкий и мощный алгоритм отслеживания, который превосходит современные методы практически во всех тестах.
English
Methods for video motion prediction either estimate jointly the instantaneous motion of all points in a given video frame using optical flow or independently track the motion of individual points throughout the video. The latter is true even for powerful deep-learning methods that can track points through occlusions. Tracking points individually ignores the strong correlation that can exist between the points, for instance, because they belong to the same physical object, potentially harming performance. In this paper, we thus propose CoTracker, an architecture that jointly tracks multiple points throughout an entire video. This architecture combines several ideas from the optical flow and tracking literature in a new, flexible and powerful design. It is based on a transformer network that models the correlation of different points in time via specialised attention layers. The transformer iteratively updates an estimate of several trajectories. It can be applied in a sliding-window manner to very long videos, for which we engineer an unrolled training loop. It can track from one to several points jointly and supports adding new points to track at any time. The result is a flexible and powerful tracking algorithm that outperforms state-of-the-art methods in almost all benchmarks.
PDF180December 15, 2024