SIGMA: Sinkhorn-Gestuurde Gemaskeerde Videomodeling
SIGMA: Sinkhorn-Guided Masked Video Modeling
July 22, 2024
Auteurs: Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano
cs.AI
Samenvatting
Video-gebaseerde voorafgaande training biedt enorm potentieel voor het leren van sterke visuele representaties op een ongekende schaal. Onlangs hebben gemaskeerde videomodelleermethoden veelbelovende schaalbaarheid getoond, maar schieten ze tekort in het vastleggen van hogere semantiek vanwege het reconstrueren van vooraf gedefinieerde laagniveau-doelen zoals pixels. Om dit aan te pakken, presenteren we Sinkhorn-guided Masked Video Modelling (SIGMA), een nieuwe videovoorafgaande trainingsmethode die gezamenlijk het videomodel leert naast een doelkenmerkruimte met behulp van een projectienetwerk. Deze eenvoudige aanpassing betekent echter dat het reguliere L2-reconstructieverlies tot triviale oplossingen zal leiden, aangezien beide netwerken gezamenlijk worden geoptimaliseerd. Als oplossing verdelen we kenmerken van ruimte-tijdbuizen gelijkmatig over een beperkt aantal leerbare clusters. Door dit als een optimaal transportprobleem te formuleren, dwingen we een hoge entropie af in de gegenereerde kenmerken over de batch, waardoor semantische en temporele betekenis in de kenmerkruimte wordt geïnfuseerd. De resulterende clustertoewijzingen worden gebruikt als doelen voor een symmetrische voorspellingstaak waarbij het videomodel de clustertoewijzing van het projectienetwerk voorspelt en vice versa. Experimentele resultaten op tien datasets over drie benchmarks valideren de effectiviteit van SIGMA in het leren van performantere, temporeel bewuste en robuuste videorepresentaties, die verbeteringen bieden ten opzichte van state-of-the-art methoden. Onze projectwebsite met code is beschikbaar op: https://quva-lab.github.io/SIGMA.
English
Video-based pretraining offers immense potential for learning strong visual
representations on an unprecedented scale. Recently, masked video modeling
methods have shown promising scalability, yet fall short in capturing
higher-level semantics due to reconstructing predefined low-level targets such
as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling
(SIGMA), a novel video pretraining method that jointly learns the video model
in addition to a target feature space using a projection network. However, this
simple modification means that the regular L2 reconstruction loss will lead to
trivial solutions as both networks are jointly optimized. As a solution, we
distribute features of space-time tubes evenly across a limited number of
learnable clusters. By posing this as an optimal transport problem, we enforce
high entropy in the generated features across the batch, infusing semantic and
temporal meaning into the feature space. The resulting cluster assignments are
used as targets for a symmetric prediction task where the video model predicts
cluster assignment of the projection network and vice versa. Experimental
results on ten datasets across three benchmarks validate the effectiveness of
SIGMA in learning more performant, temporally-aware, and robust video
representations improving upon state-of-the-art methods. Our project website
with code is available at: https://quva-lab.github.io/SIGMA.