VidProM: Миллионномасштабный набор данных Prompt-Gallery для текста к видео с моделями диффузии
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models
March 10, 2024
Авторы: Wenhao Wang, Yi Yang
cs.AI
Аннотация
Появление Sora отмечает начало новой эры для моделей диффузии текста в видео, принося значительные усовершенствования в генерации видео и потенциальных приложениях. Однако Sora, так же как и другие модели диффузии текста в видео, сильно зависит от подсказок, и нет общедоступного набора данных, включающего изучение подсказок для текста в видео. В данной статье мы представляем VidProM, первый крупномасштабный набор данных, включающий 1,67 миллиона уникальных подсказок для текста в видео от реальных пользователей. Кроме того, набор данных включает 6,69 миллиона видеороликов, сгенерированных четырьмя передовыми моделями диффузии, а также некоторые связанные данные. Сначала мы продемонстрируем создание этого крупномасштабного набора данных, что является длительным и затратным процессом. Затем мы покажем, в чем отличие предложенного VidProM от DiffusionDB, крупномасштабного набора данных с галереей подсказок для генерации изображений. Исходя из анализа этих подсказок, мы выявляем необходимость нового набора данных с подсказками, специально разработанных для генерации текста в видео, и получаем понимание предпочтений реальных пользователей при создании видеороликов. Наш крупномасштабный и разнообразный набор данных также вдохновляет на множество увлекательных новых исследовательских направлений. Например, для разработки более качественных, эффективных и безопасных моделей диффузии текста в видео мы предлагаем исследовать создание подсказок для текста в видео, эффективную генерацию видео и обнаружение копий видео для моделей диффузии. Мы делаем собранный набор данных VidProM общедоступным на GitHub и Hugging Face по лицензии CC-BY-NC 4.0.
English
The arrival of Sora marks a new era for text-to-video diffusion models,
bringing significant advancements in video generation and potential
applications. However, Sora, as well as other text-to-video diffusion models,
highly relies on the prompts, and there is no publicly available dataset
featuring a study of text-to-video prompts. In this paper, we introduce
VidProM, the first large-scale dataset comprising 1.67 million unique
text-to-video prompts from real users. Additionally, the dataset includes 6.69
million videos generated by four state-of-the-art diffusion models and some
related data. We initially demonstrate the curation of this large-scale
dataset, which is a time-consuming and costly process. Subsequently, we show
how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery
dataset for image generation. Based on the analysis of these prompts, we
identify the necessity for a new prompt dataset specifically designed for
text-to-video generation and gain insights into the preferences of real users
when creating videos. Our large-scale and diverse dataset also inspires many
exciting new research areas. For instance, to develop better, more efficient,
and safer text-to-video diffusion models, we suggest exploring text-to-video
prompt engineering, efficient video generation, and video copy detection for
diffusion models. We make the collected dataset VidProM publicly available at
GitHub and Hugging Face under the CC-BY- NC 4.0 License.Summary
AI-Generated Summary