Aprendizaje de Representaciones de Video sin Videos Naturales
Learning Video Representations without Natural Videos
October 31, 2024
Autores: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI
Resumen
En este artículo, demostramos que es posible aprender representaciones útiles de video a partir de videos sintéticos e imágenes naturales, sin incorporar videos naturales en el entrenamiento. Proponemos una progresión de conjuntos de datos de video sintetizados mediante procesos generativos simples, que modelan un conjunto creciente de propiedades de videos naturales (por ejemplo, movimiento, aceleración y transformaciones de forma). El rendimiento posterior de los modelos de video pre-entrenados en estos conjuntos de datos generados aumenta gradualmente con la progresión del conjunto de datos. Un modelo VideoMAE pre-entrenado en nuestros videos sintéticos cierra el 97.2% de la brecha de rendimiento en la clasificación de acciones de UCF101 entre el entrenamiento desde cero y el pre-entrenamiento auto-supervisado a partir de videos naturales, y supera al modelo pre-entrenado en HMDB51. La introducción de recortes de imágenes estáticas en la etapa de pre-entrenamiento resulta en un rendimiento similar al pre-entrenamiento de UCF101 y supera al modelo pre-entrenado de UCF101 en 11 de los 14 conjuntos de datos fuera de distribución de UCF101-P. Al analizar las propiedades de bajo nivel de los conjuntos de datos, identificamos correlaciones entre la diversidad de fotogramas, la similitud de los fotogramas con los datos naturales y el rendimiento posterior. Nuestro enfoque proporciona una alternativa más controlable y transparente a los procesos de curación de datos de video para el pre-entrenamiento.
English
In this paper, we show that useful video representations can be learned from
synthetic videos and natural images, without incorporating natural videos in
the training. We propose a progression of video datasets synthesized by simple
generative processes, that model a growing set of natural video properties
(e.g. motion, acceleration, and shape transformations). The downstream
performance of video models pre-trained on these generated datasets gradually
increases with the dataset progression. A VideoMAE model pre-trained on our
synthetic videos closes 97.2% of the performance gap on UCF101 action
classification between training from scratch and self-supervised pre-training
from natural videos, and outperforms the pre-trained model on HMDB51.
Introducing crops of static images to the pre-training stage results in similar
performance to UCF101 pre-training and outperforms the UCF101 pre-trained model
on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the
low-level properties of the datasets, we identify correlations between frame
diversity, frame similarity to natural data, and downstream performance. Our
approach provides a more controllable and transparent alternative to video data
curation processes for pre-training.Summary
AI-Generated Summary