Aprendizaje de Representaciones de Video sin Videos Naturales

Resumen

En este artículo, demostramos que es posible aprender representaciones útiles de video a partir de videos sintéticos e imágenes naturales, sin incorporar videos naturales en el entrenamiento. Proponemos una progresión de conjuntos de datos de video sintetizados mediante procesos generativos simples, que modelan un conjunto creciente de propiedades de videos naturales (por ejemplo, movimiento, aceleración y transformaciones de forma). El rendimiento posterior de los modelos de video pre-entrenados en estos conjuntos de datos generados aumenta gradualmente con la progresión del conjunto de datos. Un modelo VideoMAE pre-entrenado en nuestros videos sintéticos cierra el 97.2% de la brecha de rendimiento en la clasificación de acciones de UCF101 entre el entrenamiento desde cero y el pre-entrenamiento auto-supervisado a partir de videos naturales, y supera al modelo pre-entrenado en HMDB51. La introducción de recortes de imágenes estáticas en la etapa de pre-entrenamiento resulta en un rendimiento similar al pre-entrenamiento de UCF101 y supera al modelo pre-entrenado de UCF101 en 11 de los 14 conjuntos de datos fuera de distribución de UCF101-P. Al analizar las propiedades de bajo nivel de los conjuntos de datos, identificamos correlaciones entre la diversidad de fotogramas, la similitud de los fotogramas con los datos naturales y el rendimiento posterior. Nuestro enfoque proporciona una alternativa más controlable y transparente a los procesos de curación de datos de video para el pre-entrenamiento.

English

In this paper, we show that useful video representations can be learned from synthetic videos and natural images, without incorporating natural videos in the training. We propose a progression of video datasets synthesized by simple generative processes, that model a growing set of natural video properties (e.g. motion, acceleration, and shape transformations). The downstream performance of video models pre-trained on these generated datasets gradually increases with the dataset progression. A VideoMAE model pre-trained on our synthetic videos closes 97.2% of the performance gap on UCF101 action classification between training from scratch and self-supervised pre-training from natural videos, and outperforms the pre-trained model on HMDB51. Introducing crops of static images to the pre-training stage results in similar performance to UCF101 pre-training and outperforms the UCF101 pre-trained model on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the low-level properties of the datasets, we identify correlations between frame diversity, frame similarity to natural data, and downstream performance. Our approach provides a more controllable and transparent alternative to video data curation processes for pre-training.

Aprendizaje de Representaciones de Video sin Videos Naturales

Learning Video Representations without Natural Videos

Resumen

Support