ChatPaper.aiChatPaper

VidGen-1M: крупномасштабный набор данных для генерации видео по тексту

VidGen-1M: A Large-Scale Dataset for Text-to-video Generation

August 5, 2024
Авторы: Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Hao Li
cs.AI

Аннотация

Качество пар видео-текст фундаментально определяет верхнюю границу моделей текст-к-видео. В настоящее время наборы данных, используемые для обучения этих моделей, страдают от значительных недостатков, включая низкую временную последовательность, качество подкастов низкого качества, низкое качество видео и дисбаланс распределения данных. Преобладающий процесс курирования видео, который зависит от моделей изображений для тегирования и ручного курирования на основе правил, приводит к высокой вычислительной нагрузке и оставляет за собой нечистые данные. В результате отсутствует подходящий набор данных для обучения моделей текст-к-видео. Для решения этой проблемы мы представляем VidGen-1M, превосходный набор данных для обучения моделей текст-к-видео. Созданный через стратегию грубой и тонкой курирования, этот набор данных гарантирует видео высокого качества и подробные подкасты с отличной временной последовательностью. При использовании для обучения модели генерации видео этот набор данных привел к экспериментальным результатам, превосходящим те, которые были получены другими моделями.
English
The quality of video-text pairs fundamentally determines the upper bound of text-to-video models. Currently, the datasets used for training these models suffer from significant shortcomings, including low temporal consistency, poor-quality captions, substandard video quality, and imbalanced data distribution. The prevailing video curation process, which depends on image models for tagging and manual rule-based curation, leads to a high computational load and leaves behind unclean data. As a result, there is a lack of appropriate training datasets for text-to-video models. To address this problem, we present VidGen-1M, a superior training dataset for text-to-video models. Produced through a coarse-to-fine curation strategy, this dataset guarantees high-quality videos and detailed captions with excellent temporal consistency. When used to train the video generation model, this dataset has led to experimental results that surpass those obtained with other models.

Summary

AI-Generated Summary

PDF154November 28, 2024