CoTracker: Samen Volgen is Beter

Samenvatting

Methoden voor het voorspellen van beweging in video's schatten ofwel gezamenlijk de momentane beweging van alle punten in een bepaald videoframe met behulp van optische stroming, ofwel volgen ze onafhankelijk de beweging van individuele punten gedurende de hele video. Dit laatste geldt zelfs voor krachtige deep-learning-methoden die punten kunnen volgen door occlusies heen. Het individueel volgen van punten negeert de sterke correlatie die kan bestaan tussen de punten, bijvoorbeeld omdat ze tot hetzelfde fysieke object behoren, wat de prestaties potentieel kan schaden. In dit artikel stellen we daarom CoTracker voor, een architectuur die meerdere punten gezamenlijk volgt gedurende een hele video. Deze architectuur combineert verschillende ideeën uit de literatuur over optische stroming en tracking in een nieuw, flexibel en krachtig ontwerp. Het is gebaseerd op een transformernetwerk dat de correlatie van verschillende punten in de tijd modelleert via gespecialiseerde aandachtslagen. De transformer werkt iteratief een schatting van verschillende trajecten bij. Het kan op een sliding-window-manier worden toegepast op zeer lange video's, waarvoor we een uitgevouwen trainingslus hebben ontworpen. Het kan van één tot meerdere punten gezamenlijk volgen en ondersteunt het toevoegen van nieuwe punten om op elk moment te volgen. Het resultaat is een flexibel en krachtig tracking-algoritme dat in bijna alle benchmarks state-of-the-art-methoden overtreft.

English

Methods for video motion prediction either estimate jointly the instantaneous motion of all points in a given video frame using optical flow or independently track the motion of individual points throughout the video. The latter is true even for powerful deep-learning methods that can track points through occlusions. Tracking points individually ignores the strong correlation that can exist between the points, for instance, because they belong to the same physical object, potentially harming performance. In this paper, we thus propose CoTracker, an architecture that jointly tracks multiple points throughout an entire video. This architecture combines several ideas from the optical flow and tracking literature in a new, flexible and powerful design. It is based on a transformer network that models the correlation of different points in time via specialised attention layers. The transformer iteratively updates an estimate of several trajectories. It can be applied in a sliding-window manner to very long videos, for which we engineer an unrolled training loop. It can track from one to several points jointly and supports adding new points to track at any time. The result is a flexible and powerful tracking algorithm that outperforms state-of-the-art methods in almost all benchmarks.

CoTracker: Samen Volgen is Beter

CoTracker: It is Better to Track Together

Samenvatting

Support