LVD-2M: Un conjunto de datos de video de tomas largas con subtítulos temporalmente densos
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions
October 14, 2024
Autores: Tianwei Xiong, Yuqing Wang, Daquan Zhou, Zhijie Lin, Jiashi Feng, Xihui Liu
cs.AI
Resumen
La eficacia de los modelos de generación de video depende en gran medida de la calidad de sus conjuntos de datos de entrenamiento. La mayoría de los modelos previos de generación de video se entrenan con clips de video cortos, mientras que recientemente ha habido un creciente interés en entrenar modelos de generación de video largo directamente con videos más extensos. Sin embargo, la falta de videos largos de alta calidad obstaculiza el avance de la generación de video largo. Para fomentar la investigación en la generación de video largo, deseamos un nuevo conjunto de datos con cuatro características clave esenciales para entrenar modelos de generación de video largo: (1) videos largos que cubran al menos 10 segundos, (2) videos de toma larga sin cortes, (3) gran movimiento y contenidos diversos, y (4) subtítulos temporalmente densos. Para lograr esto, presentamos un nuevo proceso para seleccionar videos de toma larga de alta calidad y generar subtítulos temporalmente densos. Específicamente, definimos un conjunto de métricas para evaluar cuantitativamente la calidad del video, incluyendo cortes de escena, grados dinámicos y calidad a nivel semántico, lo que nos permite filtrar videos de toma larga de alta calidad de una gran cantidad de videos fuente. Posteriormente, desarrollamos un proceso jerárquico de subtitulado de video para anotar videos largos con subtítulos temporalmente densos. Con este proceso, creamos el primer conjunto de datos de videos de toma larga, LVD-2M, que consta de 2 millones de videos de toma larga, cada uno con más de 10 segundos y anotado con subtítulos temporalmente densos. Además, validamos la efectividad de LVD-2M ajustando finamente los modelos de generación de video para generar videos largos con movimientos dinámicos. Creemos que nuestro trabajo contribuirá significativamente a la investigación futura en la generación de video largo.
English
The efficacy of video generation models heavily depends on the quality of
their training datasets. Most previous video generation models are trained on
short video clips, while recently there has been increasing interest in
training long video generation models directly on longer videos. However, the
lack of such high-quality long videos impedes the advancement of long video
generation. To promote research in long video generation, we desire a new
dataset with four key features essential for training long video generation
models: (1) long videos covering at least 10 seconds, (2) long-take videos
without cuts, (3) large motion and diverse contents, and (4) temporally dense
captions. To achieve this, we introduce a new pipeline for selecting
high-quality long-take videos and generating temporally dense captions.
Specifically, we define a set of metrics to quantitatively assess video quality
including scene cuts, dynamic degrees, and semantic-level quality, enabling us
to filter high-quality long-take videos from a large amount of source videos.
Subsequently, we develop a hierarchical video captioning pipeline to annotate
long videos with temporally-dense captions. With this pipeline, we curate the
first long-take video dataset, LVD-2M, comprising 2 million long-take videos,
each covering more than 10 seconds and annotated with temporally dense
captions. We further validate the effectiveness of LVD-2M by fine-tuning video
generation models to generate long videos with dynamic motions. We believe our
work will significantly contribute to future research in long video generation.Summary
AI-Generated Summary