Panda-70M:複数クロスモダリティ教師による70Mビデオのキャプショニング
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers
February 29, 2024
著者: Tsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov
cs.AI
要旨
データとアノテーションの品質は、下流モデルの品質の上限を決定する。大規模なテキストコーパスや画像-テキストペアは存在するが、高品質なビデオ-テキストデータの収集ははるかに困難である。まず、手動でのラベリングは時間がかかる。なぜなら、アノテーターはビデオ全体を視聴する必要があるからである。第二に、ビデオは時間的次元を持ち、複数のシーンが重なり合い、複数のアクションを示す。したがって、高品質なキャプションを備えたビデオデータセットを構築するために、テキストビデオ説明、字幕、個々のビデオフレームなどのマルチモーダル入力を活用した自動アプローチを提案する。具体的には、公開されているHD-VILA-100Mデータセットから3.8Mの高解像度ビデオをキュレーションする。次に、それらを意味的に一貫したビデオクリップに分割し、複数のクロスモダリティ教師モデルを適用して各ビデオのキャプションを取得する。その後、各ビデオの最適なキャプションを手動で選択した小さなサブセットで検索モデルをファインチューニングし、そのモデルをデータセット全体に適用して最適なキャプションをアノテーションとして選択する。この方法で、70Mのビデオと高品質なテキストキャプションをペアリングしたデータセットを得る。このデータセットをPanda-70Mと名付ける。提案されたデータセットの価値を、ビデオキャプショニング、ビデオとテキストの検索、テキスト駆動型ビデオ生成の3つの下流タスクで示す。提案されたデータでトレーニングされたモデルは、すべてのタスクにおいてほとんどのメトリクスで大幅に高いスコアを達成する。
English
The quality of the data and annotation upper-bounds the quality of a
downstream model. While there exist large text corpora and image-text pairs,
high-quality video-text data is much harder to collect. First of all, manual
labeling is more time-consuming, as it requires an annotator to watch an entire
video. Second, videos have a temporal dimension, consisting of several scenes
stacked together, and showing multiple actions. Accordingly, to establish a
video dataset with high-quality captions, we propose an automatic approach
leveraging multimodal inputs, such as textual video description, subtitles, and
individual video frames. Specifically, we curate 3.8M high-resolution videos
from the publicly available HD-VILA-100M dataset. We then split them into
semantically consistent video clips, and apply multiple cross-modality teacher
models to obtain captions for each video. Next, we finetune a retrieval model
on a small subset where the best caption of each video is manually selected and
then employ the model in the whole dataset to select the best caption as the
annotation. In this way, we get 70M videos paired with high-quality text
captions. We dub the dataset as Panda-70M. We show the value of the proposed
dataset on three downstream tasks: video captioning, video and text retrieval,
and text-driven video generation. The models trained on the proposed data score
substantially better on the majority of metrics across all the tasks.