Обучение видеопредставлений без использования естественных видео.
Learning Video Representations without Natural Videos
October 31, 2024
Авторы: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI
Аннотация
В данной статье мы показываем, что полезные видеорепрезентации могут быть изучены из синтетических видео и естественных изображений, без включения естественных видео в обучение. Мы предлагаем прогрессию видео-наборов данных, синтезированных простыми генеративными процессами, которые моделируют растущий набор свойств естественного видео (например, движение, ускорение и преобразования формы). Результативность видео-моделей, предварительно обученных на этих сгенерированных наборах данных, постепенно увеличивается с прогрессией набора данных. Модель VideoMAE, предварительно обученная на наших синтетических видео, закрывает 97,2% разрыва в производительности по классификации действий UCF101 между обучением с нуля и предварительным самообучением на естественных видео, и превосходит предварительно обученную модель на HMDB51. Введение обрезанных статических изображений на этапе предварительного обучения приводит к схожей производительности с предварительным обучением на UCF101 и превосходит предварительно обученную модель UCF101 на 11 из 14 наборов данных UCF101-P, не входящих в распределение. Анализируя низкоуровневые свойства наборов данных, мы выявляем корреляции между разнообразием кадров, сходством кадров с естественными данными и результативностью на следующем этапе. Наш подход предоставляет более управляемую и прозрачную альтернативу процессам курирования видео-данных для предварительного обучения.
English
In this paper, we show that useful video representations can be learned from
synthetic videos and natural images, without incorporating natural videos in
the training. We propose a progression of video datasets synthesized by simple
generative processes, that model a growing set of natural video properties
(e.g. motion, acceleration, and shape transformations). The downstream
performance of video models pre-trained on these generated datasets gradually
increases with the dataset progression. A VideoMAE model pre-trained on our
synthetic videos closes 97.2% of the performance gap on UCF101 action
classification between training from scratch and self-supervised pre-training
from natural videos, and outperforms the pre-trained model on HMDB51.
Introducing crops of static images to the pre-training stage results in similar
performance to UCF101 pre-training and outperforms the UCF101 pre-trained model
on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the
low-level properties of the datasets, we identify correlations between frame
diversity, frame similarity to natural data, and downstream performance. Our
approach provides a more controllable and transparent alternative to video data
curation processes for pre-training.Summary
AI-Generated Summary