ChatPaper.aiChatPaper

SIGMA: Sinkhorn誘導型マスク付きビデオモデリング

SIGMA: Sinkhorn-Guided Masked Video Modeling

July 22, 2024
著者: Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano
cs.AI

要旨

ビデオベースの事前学習は、前例のない規模で強力な視覚表現を学習するための莫大な可能性を提供します。最近、マスク付きビデオモデリング手法は有望なスケーラビリティを示していますが、ピクセルなどの事前定義された低レベルターゲットを再構築するため、より高レベルのセマンティクスを捉える点で不足しています。この課題に対処するため、我々はSinkhorn-guided Masked Video Modelling (SIGMA)を提案します。これは、投影ネットワークを使用してビデオモデルとターゲット特徴空間を同時に学習する新しいビデオ事前学習手法です。しかし、この単純な変更により、両ネットワークが共同で最適化されるため、通常のL2再構成損失では自明な解が導かれることになります。これを解決するため、時空間チューブの特徴を限られた数の学習可能なクラスタに均等に分散させます。これを最適輸送問題として定式化することで、バッチ全体で生成された特徴に高いエントロピーを強制し、特徴空間にセマンティックおよび時間的意味を注入します。結果として得られるクラスタ割り当ては、ビデオモデルが投影ネットワークのクラスタ割り当てを予測し、その逆も行う対称予測タスクのターゲットとして使用されます。3つのベンチマークにわたる10のデータセットでの実験結果は、SIGMAがより高性能で時間的認識力があり、ロバストなビデオ表現を学習する有効性を検証し、最先端の手法を改善することを示しています。コード付きのプロジェクトウェブサイトは以下で利用可能です: https://quva-lab.github.io/SIGMA。
English
Video-based pretraining offers immense potential for learning strong visual representations on an unprecedented scale. Recently, masked video modeling methods have shown promising scalability, yet fall short in capturing higher-level semantics due to reconstructing predefined low-level targets such as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling (SIGMA), a novel video pretraining method that jointly learns the video model in addition to a target feature space using a projection network. However, this simple modification means that the regular L2 reconstruction loss will lead to trivial solutions as both networks are jointly optimized. As a solution, we distribute features of space-time tubes evenly across a limited number of learnable clusters. By posing this as an optimal transport problem, we enforce high entropy in the generated features across the batch, infusing semantic and temporal meaning into the feature space. The resulting cluster assignments are used as targets for a symmetric prediction task where the video model predicts cluster assignment of the projection network and vice versa. Experimental results on ten datasets across three benchmarks validate the effectiveness of SIGMA in learning more performant, temporally-aware, and robust video representations improving upon state-of-the-art methods. Our project website with code is available at: https://quva-lab.github.io/SIGMA.

Summary

AI-Generated Summary

PDF82November 28, 2024