自然なビデオ映像なしでのビデオ表現の学習
Learning Video Representations without Natural Videos
October 31, 2024
著者: Xueyang Yu, Xinlei Chen, Yossi Gandelsman
cs.AI
要旨
本論文では、自然なビデオをトレーニングに取り入れることなく、合成ビデオと自然画像から有用なビデオ表現を学習できることを示します。私たちは、単純な生成プロセスによって合成されたビデオデータセットの進化を提案し、成長する自然ビデオの特性(例:動き、加速、形状変換など)をモデル化します。これらの生成されたデータセットで事前にトレーニングされたビデオモデルの下流パフォーマンスは、データセットの進化に従って徐々に向上します。当社の合成ビデオで事前にトレーニングされたVideoMAEモデルは、UCF101アクション分類におけるゼロからのトレーニングと自己教師あり事前トレーニングとのパフォーマンス差の97.2%を埋め、HMDB51で事前トレーニングされたモデルを上回ります。静止画像のクロップを事前トレーニング段階に導入すると、UCF101の事前トレーニングと同等のパフォーマンスが得られ、UCF101で事前トレーニングされたモデルをUCF101-Pの14の分布外データセットのうち11つで上回ります。データセットの低レベル特性を分析することで、フレームの多様性、自然データとのフレームの類似性、および下流パフォーマンスとの相関関係を特定します。当社のアプローチは、事前トレーニングのためのビデオデータのキュレーションプロセスに対するより制御可能で透明な代替手段を提供します。
English
In this paper, we show that useful video representations can be learned from
synthetic videos and natural images, without incorporating natural videos in
the training. We propose a progression of video datasets synthesized by simple
generative processes, that model a growing set of natural video properties
(e.g. motion, acceleration, and shape transformations). The downstream
performance of video models pre-trained on these generated datasets gradually
increases with the dataset progression. A VideoMAE model pre-trained on our
synthetic videos closes 97.2% of the performance gap on UCF101 action
classification between training from scratch and self-supervised pre-training
from natural videos, and outperforms the pre-trained model on HMDB51.
Introducing crops of static images to the pre-training stage results in similar
performance to UCF101 pre-training and outperforms the UCF101 pre-trained model
on 11 out of 14 out-of-distribution datasets of UCF101-P. Analyzing the
low-level properties of the datasets, we identify correlations between frame
diversity, frame similarity to natural data, and downstream performance. Our
approach provides a more controllable and transparent alternative to video data
curation processes for pre-training.Summary
AI-Generated Summary