VidGen-1M: крупномасштабный набор данных для генерации видео по тексту
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation
August 5, 2024
Авторы: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI
Аннотация
Качество пар видео-текст фундаментально определяет верхнюю границу моделей текст-к-видео. В настоящее время наборы данных, используемые для обучения этих моделей, страдают от значительных недостатков, включая низкую временную последовательность, качество подкастов низкого качества, низкое качество видео и дисбаланс распределения данных. Преобладающий процесс курирования видео, который зависит от моделей изображений для тегирования и ручного курирования на основе правил, приводит к высокой вычислительной нагрузке и оставляет за собой нечистые данные. В результате отсутствует подходящий набор данных для обучения моделей текст-к-видео. Для решения этой проблемы мы представляем VidGen-1M, превосходный набор данных для обучения моделей текст-к-видео. Созданный через стратегию грубой и тонкой курирования, этот набор данных гарантирует видео высокого качества и подробные подкасты с отличной временной последовательностью. При использовании для обучения модели генерации видео этот набор данных привел к экспериментальным результатам, превосходящим те, которые были получены другими моделями.
English
The quality of video-text pairs fundamentally determines the upper bound of
text-to-video models. Currently, the datasets used for training these models
suffer from significant shortcomings, including low temporal consistency,
poor-quality captions, substandard video quality, and imbalanced data
distribution. The prevailing video curation process, which depends on image
models for tagging and manual rule-based curation, leads to a high
computational load and leaves behind unclean data. As a result, there is a lack
of appropriate training datasets for text-to-video models. To address this
problem, we present VidGen-1M, a superior training dataset for text-to-video
models. Produced through a coarse-to-fine curation strategy, this dataset
guarantees high-quality videos and detailed captions with excellent temporal
consistency. When used to train the video generation model, this dataset has
led to experimental results that surpass those obtained with other models.Summary
AI-Generated Summary