VidGen-1M: Un Dataset su Larga Scala per la Generazione di Video da Testo
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation
August 5, 2024
Autori: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI
Abstract
La qualità delle coppie video-testo determina fondamentalmente il limite superiore dei modelli di generazione video da testo. Attualmente, i dataset utilizzati per addestrare questi modelli presentano significative carenze, tra cui bassa coerenza temporale, didascalie di scarsa qualità, qualità video scadente e distribuzione dei dati squilibrata. Il processo prevalente di selezione dei video, che si basa su modelli di immagini per l'assegnazione di tag e su una selezione manuale basata su regole, comporta un elevato carico computazionale e lascia dati non puliti. Di conseguenza, mancano dataset di addestramento adeguati per i modelli di generazione video da testo. Per affrontare questo problema, presentiamo VidGen-1M, un dataset di addestramento superiore per i modelli di generazione video da testo. Prodotto attraverso una strategia di selezione da grossolana a fine, questo dataset garantisce video di alta qualità e didascalie dettagliate con un'eccellente coerenza temporale. Quando utilizzato per addestrare il modello di generazione video, questo dataset ha portato a risultati sperimentali che superano quelli ottenuti con altri modelli.
English
The quality of video-text pairs fundamentally determines the upper bound of
text-to-video models. Currently, the datasets used for training these models
suffer from significant shortcomings, including low temporal consistency,
poor-quality captions, substandard video quality, and imbalanced data
distribution. The prevailing video curation process, which depends on image
models for tagging and manual rule-based curation, leads to a high
computational load and leaves behind unclean data. As a result, there is a lack
of appropriate training datasets for text-to-video models. To address this
problem, we present VidGen-1M, a superior training dataset for text-to-video
models. Produced through a coarse-to-fine curation strategy, this dataset
guarantees high-quality videos and detailed captions with excellent temporal
consistency. When used to train the video generation model, this dataset has
led to experimental results that surpass those obtained with other models.