ChatPaper.aiChatPaper

VidGen-1M : Un jeu de données à grande échelle pour la génération de texte vers vidéo

VidGen-1M: A Large-Scale Dataset for Text-to-video Generation

August 5, 2024
Auteurs: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI

Résumé

La qualité des paires vidéo-texte détermine fondamentalement la limite supérieure des modèles de génération de texte à vidéo. Actuellement, les ensembles de données utilisés pour entraîner ces modèles présentent des lacunes importantes, notamment une faible cohérence temporelle, des légendes de mauvaise qualité, une qualité vidéo médiocre et une distribution déséquilibrée des données. Le processus de curation vidéo dominant, qui repose sur des modèles d'image pour l'étiquetage et une curation manuelle basée sur des règles, entraîne une charge de calcul élevée et laisse des données non nettoyées. Par conséquent, il manque des ensembles de données d'entraînement appropriés pour les modèles de génération de texte à vidéo. Pour résoudre ce problème, nous présentons VidGen-1M, un ensemble de données d'entraînement supérieur pour les modèles de génération de texte à vidéo. Produit grâce à une stratégie de curation allant du grossier au fin, cet ensemble de données garantit des vidéos de haute qualité et des légendes détaillées avec une excellente cohérence temporelle. Lorsqu'il est utilisé pour entraîner le modèle de génération vidéo, cet ensemble de données a conduit à des résultats expérimentaux surpassant ceux obtenus avec d'autres modèles.
English
The quality of video-text pairs fundamentally determines the upper bound of text-to-video models. Currently, the datasets used for training these models suffer from significant shortcomings, including low temporal consistency, poor-quality captions, substandard video quality, and imbalanced data distribution. The prevailing video curation process, which depends on image models for tagging and manual rule-based curation, leads to a high computational load and leaves behind unclean data. As a result, there is a lack of appropriate training datasets for text-to-video models. To address this problem, we present VidGen-1M, a superior training dataset for text-to-video models. Produced through a coarse-to-fine curation strategy, this dataset guarantees high-quality videos and detailed captions with excellent temporal consistency. When used to train the video generation model, this dataset has led to experimental results that surpass those obtained with other models.

Summary

AI-Generated Summary

PDF154November 28, 2024