SIGMA: Modellazione Video con Maschere Guidata da Sinkhorn
SIGMA: Sinkhorn-Guided Masked Video Modeling
July 22, 2024
Autori: Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano
cs.AI
Abstract
Il pretraining basato su video offre un potenziale enorme per apprendere rappresentazioni visive robuste su una scala senza precedenti. Recentemente, i metodi di modellazione video mascherata hanno dimostrato una promettente scalabilità, ma risultano carenti nel catturare semantiche di livello superiore a causa della ricostruzione di target predefiniti di basso livello, come i pixel. Per affrontare questo problema, presentiamo SIGMA (Sinkhorn-guided Masked Video Modelling), un nuovo metodo di pretraining video che apprende congiuntamente il modello video insieme a uno spazio di feature target utilizzando una rete di proiezione. Tuttavia, questa semplice modifica implica che la classica funzione di perdita di ricostruzione L2 porterà a soluzioni banali poiché entrambe le reti sono ottimizzate congiuntamente. Come soluzione, distribuiamo le feature dei tubi spazio-temporali in modo uniforme su un numero limitato di cluster apprendibili. Formulando questo come un problema di trasporto ottimo, imponiamo un’elevata entropia nelle feature generate all’interno del batch, infondendo significato semantico e temporale nello spazio delle feature. Le assegnazioni risultanti ai cluster sono utilizzate come target per un compito di predizione simmetrica in cui il modello video predice l’assegnazione ai cluster della rete di proiezione e viceversa. I risultati sperimentali su dieci dataset attraverso tre benchmark convalidano l’efficacia di SIGMA nell’apprendere rappresentazioni video più performanti, temporalmente consapevoli e robuste, migliorando rispetto ai metodi all’avanguardia. Il sito del progetto con il codice è disponibile all’indirizzo: https://quva-lab.github.io/SIGMA.
English
Video-based pretraining offers immense potential for learning strong visual
representations on an unprecedented scale. Recently, masked video modeling
methods have shown promising scalability, yet fall short in capturing
higher-level semantics due to reconstructing predefined low-level targets such
as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling
(SIGMA), a novel video pretraining method that jointly learns the video model
in addition to a target feature space using a projection network. However, this
simple modification means that the regular L2 reconstruction loss will lead to
trivial solutions as both networks are jointly optimized. As a solution, we
distribute features of space-time tubes evenly across a limited number of
learnable clusters. By posing this as an optimal transport problem, we enforce
high entropy in the generated features across the batch, infusing semantic and
temporal meaning into the feature space. The resulting cluster assignments are
used as targets for a symmetric prediction task where the video model predicts
cluster assignment of the projection network and vice versa. Experimental
results on ten datasets across three benchmarks validate the effectiveness of
SIGMA in learning more performant, temporally-aware, and robust video
representations improving upon state-of-the-art methods. Our project website
with code is available at: https://quva-lab.github.io/SIGMA.