VidGen-1M: Un conjunto de datos a gran escala para la generación de video a partir de texto.
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation
August 5, 2024
Autores: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI
Resumen
La calidad de los pares de video-texto determina fundamentalmente el límite superior de los modelos de texto a video. Actualmente, los conjuntos de datos utilizados para entrenar estos modelos presentan deficiencias significativas, como baja consistencia temporal, subtítulos de baja calidad, calidad de video deficiente y distribución desequilibrada de datos. El proceso predominante de curación de videos, que depende de modelos de imágenes para etiquetar y de curación manual basada en reglas, conlleva una carga computacional alta y deja datos no limpios. Como resultado, existe una falta de conjuntos de datos de entrenamiento adecuados para los modelos de texto a video. Para abordar este problema, presentamos VidGen-1M, un conjunto de datos de entrenamiento superior para modelos de texto a video. Producido a través de una estrategia de curación de grueso a fino, este conjunto de datos garantiza videos de alta calidad y subtítulos detallados con excelente consistencia temporal. Cuando se utiliza para entrenar el modelo de generación de video, este conjunto de datos ha dado lugar a resultados experimentales que superan a los obtenidos con otros modelos.
English
The quality of video-text pairs fundamentally determines the upper bound of
text-to-video models. Currently, the datasets used for training these models
suffer from significant shortcomings, including low temporal consistency,
poor-quality captions, substandard video quality, and imbalanced data
distribution. The prevailing video curation process, which depends on image
models for tagging and manual rule-based curation, leads to a high
computational load and leaves behind unclean data. As a result, there is a lack
of appropriate training datasets for text-to-video models. To address this
problem, we present VidGen-1M, a superior training dataset for text-to-video
models. Produced through a coarse-to-fine curation strategy, this dataset
guarantees high-quality videos and detailed captions with excellent temporal
consistency. When used to train the video generation model, this dataset has
led to experimental results that surpass those obtained with other models.Summary
AI-Generated Summary