SIGMA: Sinkhorn-geführte maskierte Video-Modellierung
SIGMA: Sinkhorn-Guided Masked Video Modeling
July 22, 2024
Autoren: Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano
cs.AI
Zusammenfassung
Die videobasierte Vortrainierung bietet ein enormes Potenzial für das Erlernen starker visueller Repräsentationen in bisher nicht dagewesenem Maßstab. In letzter Zeit haben maskenbasierte Videomodellierungsmethoden vielversprechende Skalierbarkeit gezeigt, jedoch reichen sie nicht aus, um höhere semantische Ebenen zu erfassen, da sie vordefinierte niedrigstufige Ziele wie Pixel rekonstruieren. Um dies zu bewältigen, präsentieren wir Sinkhorn-geführte Masken-Videomodellierung (SIGMA), eine neuartige Methode zur Videovortrainierung, die das Videomodell gemeinsam mit einem Zielmerkmalsraum unter Verwendung eines Projektionsnetzwerks lernt. Diese einfache Modifikation bedeutet jedoch, dass der reguläre L2-Rekonstruktionsverlust zu trivialen Lösungen führen wird, da beide Netzwerke gemeinsam optimiert werden. Als Lösung verteilen wir Merkmale von Raum-Zeit-Röhren gleichmäßig über eine begrenzte Anzahl erlernbarer Cluster. Indem wir dies als ein optimales Transportproblem darstellen, erzwingen wir eine hohe Entropie in den generierten Merkmalen über die Charge hinweg und bringen semantische und zeitliche Bedeutung in den Merkmalsraum ein. Die resultierenden Cluster-Zuweisungen werden als Ziele für eine symmetrische Vorhersageaufgabe verwendet, bei der das Videomodell die Cluster-Zuweisung des Projektionsnetzwerks vorhersagt und umgekehrt. Experimentelle Ergebnisse auf zehn Datensätzen über drei Benchmarks hinweg bestätigen die Wirksamkeit von SIGMA beim Erlernen performanterer, zeitlich bewussterer und robusterer Videorepräsentationen, die über die aktuellen Methoden hinausgehen. Unsere Projektwebsite mit dem Code ist verfügbar unter: https://quva-lab.github.io/SIGMA.
English
Video-based pretraining offers immense potential for learning strong visual
representations on an unprecedented scale. Recently, masked video modeling
methods have shown promising scalability, yet fall short in capturing
higher-level semantics due to reconstructing predefined low-level targets such
as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling
(SIGMA), a novel video pretraining method that jointly learns the video model
in addition to a target feature space using a projection network. However, this
simple modification means that the regular L2 reconstruction loss will lead to
trivial solutions as both networks are jointly optimized. As a solution, we
distribute features of space-time tubes evenly across a limited number of
learnable clusters. By posing this as an optimal transport problem, we enforce
high entropy in the generated features across the batch, infusing semantic and
temporal meaning into the feature space. The resulting cluster assignments are
used as targets for a symmetric prediction task where the video model predicts
cluster assignment of the projection network and vice versa. Experimental
results on ten datasets across three benchmarks validate the effectiveness of
SIGMA in learning more performant, temporally-aware, and robust video
representations improving upon state-of-the-art methods. Our project website
with code is available at: https://quva-lab.github.io/SIGMA.Summary
AI-Generated Summary