SIGMA: Modelado de Video Enmascarado Guiado por Sinkhorn
SIGMA: Sinkhorn-Guided Masked Video Modeling
July 22, 2024
Autores: Mohammadreza Salehi, Michael Dorkenwald, Fida Mohammad Thoker, Efstratios Gavves, Cees G. M. Snoek, Yuki M. Asano
cs.AI
Resumen
El preentrenamiento basado en video ofrece un inmenso potencial para aprender representaciones visuales sólidas a una escala sin precedentes. Recientemente, los métodos de modelado de video enmascarado han demostrado una escalabilidad prometedora, pero fallan en capturar semánticas de nivel superior debido a la reconstrucción de objetivos predefinidos de bajo nivel, como píxeles. Para abordar esto, presentamos Sinkhorn-guided Masked Video Modelling (SIGMA), un novedoso método de preentrenamiento de video que aprende conjuntamente el modelo de video además de un espacio de características objetivo utilizando una red de proyección. Sin embargo, esta simple modificación significa que la pérdida de reconstrucción regular L2 conducirá a soluciones triviales, ya que ambas redes se optimizan conjuntamente. Como solución, distribuimos las características de tubos espacio-temporales de manera uniforme en un número limitado de conglomerados aprendibles. Al plantear esto como un problema de transporte óptimo, imponemos una alta entropía en las características generadas en el lote, infundiendo significado semántico y temporal en el espacio de características. Las asignaciones de conglomerados resultantes se utilizan como objetivos para una tarea de predicción simétrica donde el modelo de video predice la asignación de conglomerados de la red de proyección y viceversa. Los resultados experimentales en diez conjuntos de datos a través de tres benchmarks validan la efectividad de SIGMA en el aprendizaje de representaciones de video más eficientes, conscientes temporalmente y robustas, mejorando los métodos de vanguardia. Nuestro sitio web del proyecto con el código está disponible en: https://quva-lab.github.io/SIGMA.
English
Video-based pretraining offers immense potential for learning strong visual
representations on an unprecedented scale. Recently, masked video modeling
methods have shown promising scalability, yet fall short in capturing
higher-level semantics due to reconstructing predefined low-level targets such
as pixels. To tackle this, we present Sinkhorn-guided Masked Video Modelling
(SIGMA), a novel video pretraining method that jointly learns the video model
in addition to a target feature space using a projection network. However, this
simple modification means that the regular L2 reconstruction loss will lead to
trivial solutions as both networks are jointly optimized. As a solution, we
distribute features of space-time tubes evenly across a limited number of
learnable clusters. By posing this as an optimal transport problem, we enforce
high entropy in the generated features across the batch, infusing semantic and
temporal meaning into the feature space. The resulting cluster assignments are
used as targets for a symmetric prediction task where the video model predicts
cluster assignment of the projection network and vice versa. Experimental
results on ten datasets across three benchmarks validate the effectiveness of
SIGMA in learning more performant, temporally-aware, and robust video
representations improving upon state-of-the-art methods. Our project website
with code is available at: https://quva-lab.github.io/SIGMA.Summary
AI-Generated Summary