LVD-2M: 時間的に密なキャプションを持つ長尺ビデオデータセット
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
October 14, 2024
著者: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
cs.AI
要旨
ビデオ生成モデルの効果は、そのトレーニングデータセットの品質に大きく依存しています。過去の多くのビデオ生成モデルは短いビデオクリップでトレーニングされてきましたが、最近では長いビデオに直接トレーニングされる長いビデオ生成モデルに対する関心が高まっています。ただし、そのような高品質な長いビデオが不足しているため、長いビデオ生成の進展が妨げられています。長いビデオ生成の研究を促進するために、長いビデオ生成モデルのトレーニングに不可欠な4つの主要な特徴を備えた新しいデータセットが必要です:(1) 少なくとも10秒をカバーする長いビデオ、(2) カットのない長いテイクのビデオ、(3) 大きな動きと多様な内容、および(4) 時間的に密なキャプション。これを実現するために、高品質な長いテイクのビデオを選択し、時間的に密なキャプションを生成する新しいパイプラインを紹介します。具体的には、シーンカット、ダイナミック度、および意味レベルの品質を定量的に評価する一連のメトリクスを定義し、これにより大量のソースビデオから高品質な長いテイクのビデオをフィルタリングします。その後、階層的なビデオキャプションパイプラインを開発して、長いビデオに時間的に密なキャプションを注釈付けします。このパイプラインを使用して、10秒以上をカバーし、時間的に密なキャプションで注釈付けされた200万本の長いテイクビデオからなる初の長いビデオデータセットであるLVD-2Mをキュレーションします。さらに、LVD-2Mの効果を検証するために、ビデオ生成モデルを微調整してダイナミックな動きを持つ長いビデオを生成します。私たちの研究が将来の長いビデオ生成の研究に大きく貢献すると信じています。
English
The efficacy of video generation models heavily depends on the quality of
their training datasets. Most previous video generation models are trained on
short video clips, while recently there has been increasing interest in
training long video generation models directly on longer videos. However, the
lack of such high-quality long videos impedes the advancement of long video
generation. To promote research in long video generation, we desire a new
dataset with four key features essential for training long video generation
models: (1) long videos covering at least 10 seconds, (2) long-take videos
without cuts, (3) large motion and diverse contents, and (4) temporally dense
captions. To achieve this, we introduce a new pipeline for selecting
high-quality long-take videos and generating temporally dense captions.
Specifically, we define a set of metrics to quantitatively assess video quality
including scene cuts, dynamic degrees, and semantic-level quality, enabling us
to filter high-quality long-take videos from a large amount of source videos.
Subsequently, we develop a hierarchical video captioning pipeline to annotate
long videos with temporally-dense captions. With this pipeline, we curate the
first long-take video dataset, LVD-2M, comprising 2 million long-take videos,
each covering more than 10 seconds and annotated with temporally dense
captions. We further validate the effectiveness of LVD-2M by fine-tuning video
generation models to generate long videos with dynamic motions. We believe our
work will significantly contribute to future research in long video generation.Summary
AI-Generated Summary