СИГМА: Моделирование видео с маскированием под руководством Синкхорна
SIGMA: Sinkhorn-Guided Masked Video Modeling
July 22, 2024
Авторы: Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano
cs.AI
Аннотация
Предварительное обучение на основе видео предлагает огромный потенциал для обучения качественных визуальных представлений в масштабах, недоступных ранее. Недавно методы маскированного моделирования видео показали перспективную масштабируемость, однако они не способны полностью улавливать более высокоуровневую семантику из-за восстановления заранее определенных низкоуровневых целей, таких как пиксели. Для решения этой проблемы мы представляем метод предварительного обучения видео под названием Sinkhorn-guided Masked Video Modelling (SIGMA), который совместно обучает модель видео и целевое пространство признаков с использованием сети проекции. Однако такое простое изменение означает, что обычная потеря восстановления L2 приведет к тривиальным решениям, поскольку обе сети оптимизируются совместно. В качестве решения мы равномерно распределяем признаки пространственно-временных трубок по ограниченному числу обучаемых кластеров. Представляя это как задачу оптимальной транспортировки, мы обеспечиваем высокую энтропию в сгенерированных признаках внутри пакета, внедряя семантическое и временное значение в пространство признаков. Полученные назначения кластеров используются в качестве целей для симметричной задачи предсказания, где модель видео предсказывает назначение кластера сети проекции и наоборот. Экспериментальные результаты на десяти наборах данных по трем бенчмаркам подтверждают эффективность SIGMA в обучении более производительных, осведомленных о времени и надежных видеопредставлений, превосходящих современные методы. Наш веб-сайт проекта с кодом доступен по адресу: https://quva-lab.github.io/SIGMA.
English
Video-based pretraining offers immense potential for learning strong visual
representations on an unprecedented scale. Recently, masked video modeling
methods have shown promising scalability, yet fall short in capturing
higher-level semantics due to reconstructing predefined low-level targets such
as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling
(SIGMA), a novel video pretraining method that jointly learns the video model
in addition to a target feature space using a projection network. However, this
simple modification means that the regular L2 reconstruction loss will lead to
trivial solutions as both networks are jointly optimized. As a solution, we
distribute features of space-time tubes evenly across a limited number of
learnable clusters. By posing this as an optimal transport problem, we enforce
high entropy in the generated features across the batch, infusing semantic and
temporal meaning into the feature space. The resulting cluster assignments are
used as targets for a symmetric prediction task where the video model predicts
cluster assignment of the projection network and vice versa. Experimental
results on ten datasets across three benchmarks validate the effectiveness of
SIGMA in learning more performant, temporally-aware, and robust video
representations improving upon state-of-the-art methods. Our project website
with code is available at: https://quva-lab.github.io/SIGMA.Summary
AI-Generated Summary