CoTracker: Samen Volgen is Beter
CoTracker: It is Better to Track Together
July 14, 2023
Auteurs: Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht
cs.AI
Samenvatting
Methoden voor het voorspellen van beweging in video's schatten ofwel gezamenlijk de momentane beweging van alle punten in een bepaald videoframe met behulp van optische stroming, ofwel volgen ze onafhankelijk de beweging van individuele punten gedurende de hele video. Dit laatste geldt zelfs voor krachtige deep-learning-methoden die punten kunnen volgen door occlusies heen. Het individueel volgen van punten negeert de sterke correlatie die kan bestaan tussen de punten, bijvoorbeeld omdat ze tot hetzelfde fysieke object behoren, wat de prestaties potentieel kan schaden. In dit artikel stellen we daarom CoTracker voor, een architectuur die meerdere punten gezamenlijk volgt gedurende een hele video. Deze architectuur combineert verschillende ideeën uit de literatuur over optische stroming en tracking in een nieuw, flexibel en krachtig ontwerp. Het is gebaseerd op een transformernetwerk dat de correlatie van verschillende punten in de tijd modelleert via gespecialiseerde aandachtslagen. De transformer werkt iteratief een schatting van verschillende trajecten bij. Het kan op een sliding-window-manier worden toegepast op zeer lange video's, waarvoor we een uitgevouwen trainingslus hebben ontworpen. Het kan van één tot meerdere punten gezamenlijk volgen en ondersteunt het toevoegen van nieuwe punten om op elk moment te volgen. Het resultaat is een flexibel en krachtig tracking-algoritme dat in bijna alle benchmarks state-of-the-art-methoden overtreft.
English
Methods for video motion prediction either estimate jointly the instantaneous
motion of all points in a given video frame using optical flow or independently
track the motion of individual points throughout the video. The latter is true
even for powerful deep-learning methods that can track points through
occlusions. Tracking points individually ignores the strong correlation that
can exist between the points, for instance, because they belong to the same
physical object, potentially harming performance. In this paper, we thus
propose CoTracker, an architecture that jointly tracks multiple points
throughout an entire video. This architecture combines several ideas from the
optical flow and tracking literature in a new, flexible and powerful design. It
is based on a transformer network that models the correlation of different
points in time via specialised attention layers. The transformer iteratively
updates an estimate of several trajectories. It can be applied in a
sliding-window manner to very long videos, for which we engineer an unrolled
training loop. It can track from one to several points jointly and supports
adding new points to track at any time. The result is a flexible and powerful
tracking algorithm that outperforms state-of-the-art methods in almost all
benchmarks.