VidProM : Un jeu de données d'un million de prompts réels pour les modèles de diffusion texte-vidéo
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models
March 10, 2024
Auteurs: Wenhao Wang, Yi Yang
cs.AI
Résumé
L'arrivée de Sora marque une nouvelle ère pour les modèles de diffusion texte-à-vidéo, apportant des avancées significatives dans la génération de vidéos et leurs applications potentielles. Cependant, Sora, ainsi que d'autres modèles de diffusion texte-à-vidéo, dépendent fortement des prompts, et il n'existe aucun jeu de données public comportant une étude des prompts texte-à-vidéo. Dans cet article, nous présentons VidProM, le premier jeu de données à grande échelle comprenant 1,67 million de prompts texte-à-vidéo uniques provenant d'utilisateurs réels. De plus, le jeu de données inclut 6,69 millions de vidéos générées par quatre modèles de diffusion de pointe ainsi que certaines données connexes. Nous démontrons d'abord la curation de ce jeu de données à grande échelle, un processus long et coûteux. Ensuite, nous montrons en quoi le VidProM proposé diffère de DiffusionDB, un jeu de données à grande échelle de prompts pour la génération d'images. Sur la base de l'analyse de ces prompts, nous identifions la nécessité d'un nouveau jeu de données de prompts spécifiquement conçu pour la génération texte-à-vidéo et obtenons des insights sur les préférences des utilisateurs réels lors de la création de vidéos. Notre jeu de données à grande échelle et diversifié inspire également de nombreux nouveaux domaines de recherche passionnants. Par exemple, pour développer des modèles de diffusion texte-à-vidéo meilleurs, plus efficaces et plus sûrs, nous suggérons d'explorer l'ingénierie des prompts texte-à-vidéo, la génération efficace de vidéos et la détection de copies de vidéos pour les modèles de diffusion. Nous mettons le jeu de données collecté VidProM à disposition du public sur GitHub et Hugging Face sous la licence CC-BY-NC 4.0.
English
The arrival of Sora marks a new era for text-to-video diffusion models,
bringing significant advancements in video generation and potential
applications. However, Sora, as well as other text-to-video diffusion models,
highly relies on the prompts, and there is no publicly available dataset
featuring a study of text-to-video prompts. In this paper, we introduce
VidProM, the first large-scale dataset comprising 1.67 million unique
text-to-video prompts from real users. Additionally, the dataset includes 6.69
million videos generated by four state-of-the-art diffusion models and some
related data. We initially demonstrate the curation of this large-scale
dataset, which is a time-consuming and costly process. Subsequently, we show
how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery
dataset for image generation. Based on the analysis of these prompts, we
identify the necessity for a new prompt dataset specifically designed for
text-to-video generation and gain insights into the preferences of real users
when creating videos. Our large-scale and diverse dataset also inspires many
exciting new research areas. For instance, to develop better, more efficient,
and safer text-to-video diffusion models, we suggest exploring text-to-video
prompt engineering, efficient video generation, and video copy detection for
diffusion models. We make the collected dataset VidProM publicly available at
GitHub and Hugging Face under the CC-BY- NC 4.0 License.Summary
AI-Generated Summary