ChatPaper.aiChatPaper

SIGMA: Modelagem de Vídeo Mascaramento Guiada por Sinkhorn

SIGMA: Sinkhorn-Guided Masked Video Modeling

July 22, 2024
Autores: Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano
cs.AI

Resumo

A pré-treinamento baseado em vídeo oferece um potencial imenso para aprender representações visuais robustas em uma escala sem precedentes. Recentemente, métodos de modelagem de vídeo mascarado têm mostrado escalabilidade promissora, porém falham em capturar semântica de nível superior devido à reconstrução de alvos de baixo nível predefinidos, como pixels. Para lidar com isso, apresentamos o Modelo de Vídeo Mascaramento Guiado por Sinkhorn (SIGMA), um novo método de pré-treinamento de vídeo que aprende conjuntamente o modelo de vídeo além de um espaço de características alvo usando uma rede de projeção. No entanto, essa simples modificação significa que a perda de reconstrução L2 regular levará a soluções triviais, uma vez que ambas as redes são otimizadas em conjunto. Como solução, distribuímos características de tubos espaço-temporais uniformemente em um número limitado de clusters aprendíveis. Ao apresentar isso como um problema de transporte ótimo, impomos alta entropia nas características geradas em todo o lote, infundindo significado semântico e temporal no espaço de características. As atribuições de clusters resultantes são usadas como alvos para uma tarefa de previsão simétrica, na qual o modelo de vídeo prevê a atribuição de cluster da rede de projeção e vice-versa. Resultados experimentais em dez conjuntos de dados em três benchmarks validam a eficácia do SIGMA em aprender representações de vídeo mais performáticas, temporalmente conscientes e robustas, melhorando os métodos de ponta. Nosso site do projeto com o código está disponível em: https://quva-lab.github.io/SIGMA.
English
Video-based pretraining offers immense potential for learning strong visual representations on an unprecedented scale. Recently, masked video modeling methods have shown promising scalability, yet fall short in capturing higher-level semantics due to reconstructing predefined low-level targets such as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling (SIGMA), a novel video pretraining method that jointly learns the video model in addition to a target feature space using a projection network. However, this simple modification means that the regular L2 reconstruction loss will lead to trivial solutions as both networks are jointly optimized. As a solution, we distribute features of space-time tubes evenly across a limited number of learnable clusters. By posing this as an optimal transport problem, we enforce high entropy in the generated features across the batch, infusing semantic and temporal meaning into the feature space. The resulting cluster assignments are used as targets for a symmetric prediction task where the video model predicts cluster assignment of the projection network and vice versa. Experimental results on ten datasets across three benchmarks validate the effectiveness of SIGMA in learning more performant, temporally-aware, and robust video representations improving upon state-of-the-art methods. Our project website with code is available at: https://quva-lab.github.io/SIGMA.

Summary

AI-Generated Summary

PDF82November 28, 2024