Обучение видеопредставлений без использования естественных видео.

Аннотация

В данной статье мы показываем, что полезные видеорепрезентации могут быть изучены из синтетических видео и естественных изображений, без включения естественных видео в обучение. Мы предлагаем прогрессию видео-наборов данных, синтезированных простыми генеративными процессами, которые моделируют растущий набор свойств естественного видео (например, движение, ускорение и преобразования формы). Результативность видео-моделей, предварительно обученных на этих сгенерированных наборах данных, постепенно увеличивается с прогрессией набора данных. Модель VideoMAE, предварительно обученная на наших синтетических видео, закрывает 97,2% разрыва в производительности по классификации действий UCF101 между обучением с нуля и предварительным самообучением на естественных видео, и превосходит предварительно обученную модель на HMDB51. Введение обрезанных статических изображений на этапе предварительного обучения приводит к схожей производительности с предварительным обучением на UCF101 и превосходит предварительно обученную модель UCF101 на 11 из 14 наборов данных UCF101-P, не входящих в распределение. Анализируя низкоуровневые свойства наборов данных, мы выявляем корреляции между разнообразием кадров, сходством кадров с естественными данными и результативностью на следующем этапе. Наш подход предоставляет более управляемую и прозрачную альтернативу процессам курирования видео-данных для предварительного обучения.

English

In this paper, we show that useful video representations can be learned from synthetic videos and natural images, without incorporating natural videos in the training. We propose a progression of video datasets synthesized by simple generative processes, that model a growing set of natural video properties (e.g. motion, acceleration, and shape transformations). The downstream performance of video models pre-trained on these generated datasets gradually increases with the dataset progression. A VideoMAE model pre-trained on our synthetic videos closes 97.2% of the performance gap on UCF101 action classification between training from scratch and self-supervised pre-training from natural videos, and outperforms the pre-trained model on HMDB51. Introducing crops of static images to the pre-training stage results in similar performance to UCF101 pre-training and outperforms the UCF101 pre-trained model on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the low-level properties of the datasets, we identify correlations between frame diversity, frame similarity to natural data, and downstream performance. Our approach provides a more controllable and transparent alternative to video data curation processes for pre-training.

Обучение видеопредставлений без использования естественных видео.

Learning Video Representations without Natural Videos

Аннотация

Support