VidGen-1M: Een grootschalige dataset voor tekst-naar-video-generatie

Samenvatting

De kwaliteit van video-tekstparen bepaalt in essentie de bovengrens van tekst-naar-video-modellen. Momenteel kampen de datasets die voor het trainen van deze modellen worden gebruikt met aanzienlijke tekortkomingen, waaronder lage temporele consistentie, ondermaatse bijschriften, inferieure videokwaliteit en een onevenwichtige dataverdeling. Het gangbare videocuratieproces, dat afhankelijk is van beeldmodellen voor tagging en handmatige, op regels gebaseerde curatie, resulteert in een hoge computationele belasting en laat onzuivere data achter. Hierdoor ontbreekt het aan geschikte trainingsdatasets voor tekst-naar-video-modellen. Om dit probleem aan te pakken, presenteren we VidGen-1M, een superieure trainingsdataset voor tekst-naar-video-modellen. Deze dataset, geproduceerd via een grof-naar-fijn-curatiestrategie, garandeert hoogwaardige video's en gedetailleerde bijschriften met uitstekende temporele consistentie. Wanneer deze dataset wordt gebruikt om het videogeneratiemodel te trainen, leidt dit tot experimentele resultaten die die van andere modellen overtreffen.

English

The quality of video-text pairs fundamentally determines the upper bound of text-to-video models. Currently, the datasets used for training these models suffer from significant shortcomings, including low temporal consistency, poor-quality captions, substandard video quality, and imbalanced data distribution. The prevailing video curation process, which depends on image models for tagging and manual rule-based curation, leads to a high computational load and leaves behind unclean data. As a result, there is a lack of appropriate training datasets for text-to-video models. To address this problem, we present VidGen-1M, a superior training dataset for text-to-video models. Produced through a coarse-to-fine curation strategy, this dataset guarantees high-quality videos and detailed captions with excellent temporal consistency. When used to train the video generation model, this dataset has led to experimental results that surpass those obtained with other models.

VidGen-1M: Een grootschalige dataset voor tekst-naar-video-generatie

VidGen-1M: A Large-Scale Dataset for Text-to-video Generation

Samenvatting

Support