ChatPaper.aiChatPaper

SIGMA : Modélisation vidéo masquée guidée par Sinkhorn

SIGMA: Sinkhorn-Guided Masked Video Modeling

July 22, 2024
Auteurs: Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano
cs.AI

Résumé

Le pré-entraînement basé sur la vidéo offre un potentiel immense pour l'apprentissage de représentations visuelles robustes à une échelle sans précédent. Récemment, les méthodes de modélisation vidéo masquée ont montré une prometteuse scalabilité, mais peinent à capturer des sémantiques de haut niveau en raison de la reconstruction de cibles prédéfinies de bas niveau, telles que les pixels. Pour résoudre ce problème, nous présentons SIGMA (Sinkhorn-guided Masked Video Modelling), une nouvelle méthode de pré-entraînement vidéo qui apprend conjointement le modèle vidéo ainsi qu'un espace de caractéristiques cible à l'aide d'un réseau de projection. Cependant, cette simple modification implique que la perte de reconstruction L2 classique conduira à des solutions triviales, car les deux réseaux sont optimisés conjointement. Pour y remédier, nous distribuons les caractéristiques des tubes spatio-temporels de manière uniforme sur un nombre limité de clusters apprenables. En formulant cela comme un problème de transport optimal, nous imposons une entropie élevée dans les caractéristiques générées à travers le lot, infusant ainsi une signification sémantique et temporelle dans l'espace de caractéristiques. Les affectations de clusters résultantes sont utilisées comme cibles pour une tâche de prédiction symétrique où le modèle vidéo prédit l'affectation de cluster du réseau de projection et vice versa. Les résultats expérimentaux sur dix jeux de données à travers trois benchmarks valident l'efficacité de SIGMA dans l'apprentissage de représentations vidéo plus performantes, conscientes du temps et robustes, surpassant les méthodes de pointe. Notre site web de projet avec le code est disponible à l'adresse suivante : https://quva-lab.github.io/SIGMA.
English
Video-based pretraining offers immense potential for learning strong visual representations on an unprecedented scale. Recently, masked video modeling methods have shown promising scalability, yet fall short in capturing higher-level semantics due to reconstructing predefined low-level targets such as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling (SIGMA), a novel video pretraining method that jointly learns the video model in addition to a target feature space using a projection network. However, this simple modification means that the regular L2 reconstruction loss will lead to trivial solutions as both networks are jointly optimized. As a solution, we distribute features of space-time tubes evenly across a limited number of learnable clusters. By posing this as an optimal transport problem, we enforce high entropy in the generated features across the batch, infusing semantic and temporal meaning into the feature space. The resulting cluster assignments are used as targets for a symmetric prediction task where the video model predicts cluster assignment of the projection network and vice versa. Experimental results on ten datasets across three benchmarks validate the effectiveness of SIGMA in learning more performant, temporally-aware, and robust video representations improving upon state-of-the-art methods. Our project website with code is available at: https://quva-lab.github.io/SIGMA.

Summary

AI-Generated Summary

PDF82November 28, 2024