LVD-2M : un ensemble de données vidéo à longue durée avec des légendes temporellement denses
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
October 14, 2024
Auteurs: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
cs.AI
Résumé
L'efficacité des modèles de génération vidéo dépend fortement de la qualité de leurs ensembles de données d'entraînement. La plupart des modèles de génération vidéo précédents sont entraînés sur de courts clips vidéo, tandis qu'il y a récemment un intérêt croissant pour l'entraînement de modèles de génération vidéo longs directement sur des vidéos plus longues. Cependant, le manque de telles vidéos longues de haute qualité entrave le progrès de la génération de vidéos longues. Pour promouvoir la recherche en génération de vidéos longues, nous souhaitons un nouvel ensemble de données avec quatre caractéristiques clés essentielles pour l'entraînement de modèles de génération de vidéos longues : (1) des vidéos longues couvrant au moins 10 secondes, (2) des vidéos en plan-séquence sans coupures, (3) de grands mouvements et des contenus diversifiés, et (4) des légendes temporellement denses. Pour ce faire, nous introduisons un nouveau processus de sélection de vidéos en plan-séquence de haute qualité et de génération de légendes temporellement denses. Plus précisément, nous définissons un ensemble de métriques pour évaluer quantitativement la qualité vidéo, y compris les coupures de scène, les degrés de dynamisme et la qualité au niveau sémantique, nous permettant de filtrer des vidéos en plan-séquence de haute qualité parmi une grande quantité de vidéos sources. Ensuite, nous développons un processus hiérarchique de légendage vidéo pour annoter des vidéos longues avec des légendes temporellement denses. Grâce à ce processus, nous constituons le premier ensemble de données de vidéos en plan-séquence, LVD-2M, comprenant 2 millions de vidéos en plan-séquence, chacune couvrant plus de 10 secondes et annotée avec des légendes temporellement denses. Nous validons en outre l'efficacité de LVD-2M en affinant les modèles de génération vidéo pour produire des vidéos longues avec des mouvements dynamiques. Nous pensons que notre travail contribuera de manière significative à la recherche future en génération de vidéos longues.
English
The efficacy of video generation models heavily depends on the quality of
their training datasets. Most previous video generation models are trained on
short video clips, while recently there has been increasing interest in
training long video generation models directly on longer videos. However, the
lack of such high-quality long videos impedes the advancement of long video
generation. To promote research in long video generation, we desire a new
dataset with four key features essential for training long video generation
models: (1) long videos covering at least 10 seconds, (2) long-take videos
without cuts, (3) large motion and diverse contents, and (4) temporally dense
captions. To achieve this, we introduce a new pipeline for selecting
high-quality long-take videos and generating temporally dense captions.
Specifically, we define a set of metrics to quantitatively assess video quality
including scene cuts, dynamic degrees, and semantic-level quality, enabling us
to filter high-quality long-take videos from a large amount of source videos.
Subsequently, we develop a hierarchical video captioning pipeline to annotate
long videos with temporally-dense captions. With this pipeline, we curate the
first long-take video dataset, LVD-2M, comprising 2 million long-take videos,
each covering more than 10 seconds and annotated with temporally dense
captions. We further validate the effectiveness of LVD-2M by fine-tuning video
generation models to generate long videos with dynamic motions. We believe our
work will significantly contribute to future research in long video generation.Summary
AI-Generated Summary