VidGen-1M: Een grootschalige dataset voor tekst-naar-video-generatie
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation
August 5, 2024
Auteurs: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI
Samenvatting
De kwaliteit van video-tekstparen bepaalt in essentie de bovengrens van tekst-naar-video-modellen. Momenteel kampen de datasets die voor het trainen van deze modellen worden gebruikt met aanzienlijke tekortkomingen, waaronder lage temporele consistentie, ondermaatse bijschriften, inferieure videokwaliteit en een onevenwichtige dataverdeling. Het gangbare videocuratieproces, dat afhankelijk is van beeldmodellen voor tagging en handmatige, op regels gebaseerde curatie, resulteert in een hoge computationele belasting en laat onzuivere data achter. Hierdoor ontbreekt het aan geschikte trainingsdatasets voor tekst-naar-video-modellen. Om dit probleem aan te pakken, presenteren we VidGen-1M, een superieure trainingsdataset voor tekst-naar-video-modellen. Deze dataset, geproduceerd via een grof-naar-fijn-curatiestrategie, garandeert hoogwaardige video's en gedetailleerde bijschriften met uitstekende temporele consistentie. Wanneer deze dataset wordt gebruikt om het videogeneratiemodel te trainen, leidt dit tot experimentele resultaten die die van andere modellen overtreffen.
English
The quality of video-text pairs fundamentally determines the upper bound of
text-to-video models. Currently, the datasets used for training these models
suffer from significant shortcomings, including low temporal consistency,
poor-quality captions, substandard video quality, and imbalanced data
distribution. The prevailing video curation process, which depends on image
models for tagging and manual rule-based curation, leads to a high
computational load and leaves behind unclean data. As a result, there is a lack
of appropriate training datasets for text-to-video models. To address this
problem, we present VidGen-1M, a superior training dataset for text-to-video
models. Produced through a coarse-to-fine curation strategy, this dataset
guarantees high-quality videos and detailed captions with excellent temporal
consistency. When used to train the video generation model, this dataset has
led to experimental results that surpass those obtained with other models.