VidGen-1M: Ein umfangreiches Datenset für die Generierung von Text zu Video.
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation
August 5, 2024
Autoren: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI
Zusammenfassung
Die Qualität von Video-Text-Paaren bestimmt grundlegend die Obergrenze von Text-zu-Video-Modellen. Derzeit leiden die für das Training dieser Modelle verwendeten Datensätze unter erheblichen Mängeln, darunter geringe zeitliche Konsistenz, schlechte Untertitelqualität, minderwertige Videoqualität und eine unausgewogene Datenverteilung. Der vorherrschende Prozess der Videokuration, der auf Bildmodellen zur Markierung und manuellen regelbasierten Kuration beruht, führt zu einer hohen Rechenlast und hinterlässt unreine Daten. Als Ergebnis gibt es einen Mangel an geeigneten Trainingsdatensätzen für Text-zu-Video-Modelle. Um dieses Problem zu lösen, präsentieren wir VidGen-1M, einen überlegenen Trainingsdatensatz für Text-zu-Video-Modelle. Durch eine grob-zu-fein-Kurationsstrategie erstellt, garantiert dieser Datensatz hochwertige Videos und detaillierte Untertitel mit ausgezeichneter zeitlicher Konsistenz. Bei Verwendung zur Schulung des Videoerzeugungsmodells führte dieser Datensatz zu experimentellen Ergebnissen, die die mit anderen Modellen erzielten übertreffen.
English
The quality of video-text pairs fundamentally determines the upper bound of
text-to-video models. Currently, the datasets used for training these models
suffer from significant shortcomings, including low temporal consistency,
poor-quality captions, substandard video quality, and imbalanced data
distribution. The prevailing video curation process, which depends on image
models for tagging and manual rule-based curation, leads to a high
computational load and leaves behind unclean data. As a result, there is a lack
of appropriate training datasets for text-to-video models. To address this
problem, we present VidGen-1M, a superior training dataset for text-to-video
models. Produced through a coarse-to-fine curation strategy, this dataset
guarantees high-quality videos and detailed captions with excellent temporal
consistency. When used to train the video generation model, this dataset has
led to experimental results that surpass those obtained with other models.Summary
AI-Generated Summary