Aprendizado de Representações de Vídeo sem Vídeos Naturais
Learning Video Representations without Natural Videos
October 31, 2024
Autores: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI
Resumo
Neste artigo, demonstramos que representações de vídeo úteis podem ser aprendidas a partir de vídeos sintéticos e imagens naturais, sem a incorporação de vídeos naturais no treinamento. Propomos uma progressão de conjuntos de dados de vídeo sintetizados por processos generativos simples, que modelam um conjunto crescente de propriedades de vídeo naturais (por exemplo, movimento, aceleração e transformações de forma). O desempenho subsequente de modelos de vídeo pré-treinados nesses conjuntos de dados gerados aumenta gradualmente com a progressão do conjunto de dados. Um modelo VideoMAE pré-treinado em nossos vídeos sintéticos fecha 97,2% da lacuna de desempenho na classificação de ações UCF101 entre o treinamento do zero e o pré-treinamento auto-supervisionado a partir de vídeos naturais, e supera o modelo pré-treinado no HMDB51. A introdução de recortes de imagens estáticas na fase de pré-treinamento resulta em desempenho semelhante ao pré-treinamento UCF101 e supera o modelo pré-treinado UCF101 em 11 dos 14 conjuntos de dados fora da distribuição do UCF101-P. Analisando as propriedades de baixo nível dos conjuntos de dados, identificamos correlações entre diversidade de quadros, similaridade de quadros aos dados naturais e desempenho subsequente. Nossa abordagem fornece uma alternativa mais controlável e transparente aos processos de curadoria de dados de vídeo para pré-treinamento.
English
In this paper, we show that useful video representations can be learned from
synthetic videos and natural images, without incorporating natural videos in
the training. We propose a progression of video datasets synthesized by simple
generative processes, that model a growing set of natural video properties
(e.g. motion, acceleration, and shape transformations). The downstream
performance of video models pre-trained on these generated datasets gradually
increases with the dataset progression. A VideoMAE model pre-trained on our
synthetic videos closes 97.2% of the performance gap on UCF101 action
classification between training from scratch and self-supervised pre-training
from natural videos, and outperforms the pre-trained model on HMDB51.
Introducing crops of static images to the pre-training stage results in similar
performance to UCF101 pre-training and outperforms the UCF101 pre-trained model
on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the
low-level properties of the datasets, we identify correlations between frame
diversity, frame similarity to natural data, and downstream performance. Our
approach provides a more controllable and transparent alternative to video data
curation processes for pre-training.Summary
AI-Generated Summary