ChatPaper.aiChatPaper

VidGen-1M:大規模テキスト動画生成データセット

VidGen-1M: A Large-Scale Dataset for Text-to-video Generation

August 5, 2024
著者: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI

要旨

ビデオとテキストのペアの品質は、テキストからビデオを生成するモデルの上限を根本的に決定します。現在、これらのモデルのトレーニングに使用されているデータセットには、時間的一貫性の低さ、キャプションの質の低さ、ビデオ品質の低さ、データ分布の不均衡といった重大な欠点があります。主流のビデオキュレーションプロセスは、画像モデルに依存したタグ付けと手動のルールベースのキュレーションに依存しており、高い計算負荷を引き起こし、不純なデータを残す結果となっています。その結果、テキストからビデオを生成するモデルに適したトレーニングデータセットが不足しています。この問題に対処するため、我々はVidGen-1Mを提案します。これは、粗から細へのキュレーション戦略を通じて作成された、テキストからビデオを生成するモデルのための優れたトレーニングデータセットです。このデータセットは、高品質のビデオと優れた時間的一貫性を持つ詳細なキャプションを保証します。このデータセットを使用してビデオ生成モデルをトレーニングした結果、他のモデルで得られた結果を上回る実験結果が得られました。
English
The quality of video-text pairs fundamentally determines the upper bound of text-to-video models. Currently, the datasets used for training these models suffer from significant shortcomings, including low temporal consistency, poor-quality captions, substandard video quality, and imbalanced data distribution. The prevailing video curation process, which depends on image models for tagging and manual rule-based curation, leads to a high computational load and leaves behind unclean data. As a result, there is a lack of appropriate training datasets for text-to-video models. To address this problem, we present VidGen-1M, a superior training dataset for text-to-video models. Produced through a coarse-to-fine curation strategy, this dataset guarantees high-quality videos and detailed captions with excellent temporal consistency. When used to train the video generation model, this dataset has led to experimental results that surpass those obtained with other models.

Summary

AI-Generated Summary

PDF154November 28, 2024