LVD-2M : un ensemble de données vidéo à longue durée avec des légendes temporellement denses

papers.abstract

L'efficacité des modèles de génération vidéo dépend fortement de la qualité de leurs ensembles de données d'entraînement. La plupart des modèles de génération vidéo précédents sont entraînés sur de courts clips vidéo, tandis qu'il y a récemment un intérêt croissant pour l'entraînement de modèles de génération vidéo longs directement sur des vidéos plus longues. Cependant, le manque de telles vidéos longues de haute qualité entrave le progrès de la génération de vidéos longues. Pour promouvoir la recherche en génération de vidéos longues, nous souhaitons un nouvel ensemble de données avec quatre caractéristiques clés essentielles pour l'entraînement de modèles de génération de vidéos longues : (1) des vidéos longues couvrant au moins 10 secondes, (2) des vidéos en plan-séquence sans coupures, (3) de grands mouvements et des contenus diversifiés, et (4) des légendes temporellement denses. Pour ce faire, nous introduisons un nouveau processus de sélection de vidéos en plan-séquence de haute qualité et de génération de légendes temporellement denses. Plus précisément, nous définissons un ensemble de métriques pour évaluer quantitativement la qualité vidéo, y compris les coupures de scène, les degrés de dynamisme et la qualité au niveau sémantique, nous permettant de filtrer des vidéos en plan-séquence de haute qualité parmi une grande quantité de vidéos sources. Ensuite, nous développons un processus hiérarchique de légendage vidéo pour annoter des vidéos longues avec des légendes temporellement denses. Grâce à ce processus, nous constituons le premier ensemble de données de vidéos en plan-séquence, LVD-2M, comprenant 2 millions de vidéos en plan-séquence, chacune couvrant plus de 10 secondes et annotée avec des légendes temporellement denses. Nous validons en outre l'efficacité de LVD-2M en affinant les modèles de génération vidéo pour produire des vidéos longues avec des mouvements dynamiques. Nous pensons que notre travail contribuera de manière significative à la recherche future en génération de vidéos longues.

English

The efficacy of video generation models heavily depends on the quality of their training datasets. Most previous video generation models are trained on short video clips, while recently there has been increasing interest in training long video generation models directly on longer videos. However, the lack of such high-quality long videos impedes the advancement of long video generation. To promote research in long video generation, we desire a new dataset with four key features essential for training long video generation models: (1) long videos covering at least 10 seconds, (2) long-take videos without cuts, (3) large motion and diverse contents, and (4) temporally dense captions. To achieve this, we introduce a new pipeline for selecting high-quality long-take videos and generating temporally dense captions. Specifically, we define a set of metrics to quantitatively assess video quality including scene cuts, dynamic degrees, and semantic-level quality, enabling us to filter high-quality long-take videos from a large amount of source videos. Subsequently, we develop a hierarchical video captioning pipeline to annotate long videos with temporally-dense captions. With this pipeline, we curate the first long-take video dataset, LVD-2M, comprising 2 million long-take videos, each covering more than 10 seconds and annotated with temporally dense captions. We further validate the effectiveness of LVD-2M by fine-tuning video generation models to generate long videos with dynamic motions. We believe our work will significantly contribute to future research in long video generation.

LVD-2M : un ensemble de données vidéo à longue durée avec des légendes temporellement denses

LVD-2M: A Long-take Video Dataset with Temporally Dense Captions

papers.abstract

Support