VidGen-1M : Un jeu de données à grande échelle pour la génération de texte vers vidéo
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation
August 5, 2024
Auteurs: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI
Résumé
La qualité des paires vidéo-texte détermine fondamentalement la limite supérieure des modèles de génération de texte à vidéo. Actuellement, les ensembles de données utilisés pour entraîner ces modèles présentent des lacunes importantes, notamment une faible cohérence temporelle, des légendes de mauvaise qualité, une qualité vidéo médiocre et une distribution déséquilibrée des données. Le processus de curation vidéo dominant, qui repose sur des modèles d'image pour l'étiquetage et une curation manuelle basée sur des règles, entraîne une charge de calcul élevée et laisse des données non nettoyées. Par conséquent, il manque des ensembles de données d'entraînement appropriés pour les modèles de génération de texte à vidéo. Pour résoudre ce problème, nous présentons VidGen-1M, un ensemble de données d'entraînement supérieur pour les modèles de génération de texte à vidéo. Produit grâce à une stratégie de curation allant du grossier au fin, cet ensemble de données garantit des vidéos de haute qualité et des légendes détaillées avec une excellente cohérence temporelle. Lorsqu'il est utilisé pour entraîner le modèle de génération vidéo, cet ensemble de données a conduit à des résultats expérimentaux surpassant ceux obtenus avec d'autres modèles.
English
The quality of video-text pairs fundamentally determines the upper bound of
text-to-video models. Currently, the datasets used for training these models
suffer from significant shortcomings, including low temporal consistency,
poor-quality captions, substandard video quality, and imbalanced data
distribution. The prevailing video curation process, which depends on image
models for tagging and manual rule-based curation, leads to a high
computational load and leaves behind unclean data. As a result, there is a lack
of appropriate training datasets for text-to-video models. To address this
problem, we present VidGen-1M, a superior training dataset for text-to-video
models. Produced through a coarse-to-fine curation strategy, this dataset
guarantees high-quality videos and detailed captions with excellent temporal
consistency. When used to train the video generation model, this dataset has
led to experimental results that surpass those obtained with other models.Summary
AI-Generated Summary