SIGMA: Sinkhorn 기반 마스크 비디오 모델링
SIGMA: Sinkhorn-Guided Masked Video Modeling
July 22, 2024
저자: Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano
cs.AI
초록
비디오 기반 사전 학습은 전례 없는 규모로 강력한 시각적 표현을 학습할 수 있는 엄청난 잠재력을 제공합니다. 최근 마스킹된 비디오 모델링 방법이 확장성 측면에서 유망한 성과를 보였으나, 픽셀과 같은 사전 정의된 저수준 타겟을 재구성하기 때문에 고수준 의미를 충분히 포착하지 못하는 한계가 있습니다. 이를 해결하기 위해, 우리는 Sinkhorn-guided Masked Video Modelling(SIGMA)이라는 새로운 비디오 사전 학습 방법을 제안합니다. SIGMA는 프로젝션 네트워크를 사용하여 비디오 모델과 타겟 특징 공간을 함께 학습합니다. 그러나 이 간단한 수정은 두 네트워크가 함께 최적화되기 때문에 일반적인 L2 재구성 손실이 사소한 해결책으로 이어질 수 있다는 문제를 야기합니다. 이를 해결하기 위해, 우리는 시공간 튜브의 특징을 제한된 수의 학습 가능한 클러스터에 균등하게 분포시킵니다. 이를 최적 수송 문제로 설정함으로써, 배치 전체에서 생성된 특징에 높은 엔트로피를 강제하여 특징 공간에 의미론적 및 시간적 의미를 부여합니다. 결과적으로 생성된 클러스터 할당은 대칭 예측 작업의 타겟으로 사용되며, 여기서 비디오 모델은 프로젝션 네트워크의 클러스터 할당을 예측하고 그 반대도 마찬가지입니다. 세 가지 벤치마크에서 열 개의 데이터셋에 대한 실험 결과는 SIGMA가 더 높은 성능, 시간적 인식, 그리고 강건한 비디오 표현을 학습하는 데 있어 최신 방법들을 개선하는 효과를 입증합니다. 우리의 프로젝트 웹사이트와 코드는 https://quva-lab.github.io/SIGMA에서 확인할 수 있습니다.
English
Video-based pretraining offers immense potential for learning strong visual
representations on an unprecedented scale. Recently, masked video modeling
methods have shown promising scalability, yet fall short in capturing
higher-level semantics due to reconstructing predefined low-level targets such
as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling
(SIGMA), a novel video pretraining method that jointly learns the video model
in addition to a target feature space using a projection network. However, this
simple modification means that the regular L2 reconstruction loss will lead to
trivial solutions as both networks are jointly optimized. As a solution, we
distribute features of space-time tubes evenly across a limited number of
learnable clusters. By posing this as an optimal transport problem, we enforce
high entropy in the generated features across the batch, infusing semantic and
temporal meaning into the feature space. The resulting cluster assignments are
used as targets for a symmetric prediction task where the video model predicts
cluster assignment of the projection network and vice versa. Experimental
results on ten datasets across three benchmarks validate the effectiveness of
SIGMA in learning more performant, temporally-aware, and robust video
representations improving upon state-of-the-art methods. Our project website
with code is available at: https://quva-lab.github.io/SIGMA.Summary
AI-Generated Summary