VidProM : Un jeu de données d'un million de prompts réels pour les modèles de diffusion texte-vidéo

papers.abstract

L'arrivée de Sora marque une nouvelle ère pour les modèles de diffusion texte-à-vidéo, apportant des avancées significatives dans la génération de vidéos et leurs applications potentielles. Cependant, Sora, ainsi que d'autres modèles de diffusion texte-à-vidéo, dépendent fortement des prompts, et il n'existe aucun jeu de données public comportant une étude des prompts texte-à-vidéo. Dans cet article, nous présentons VidProM, le premier jeu de données à grande échelle comprenant 1,67 million de prompts texte-à-vidéo uniques provenant d'utilisateurs réels. De plus, le jeu de données inclut 6,69 millions de vidéos générées par quatre modèles de diffusion de pointe ainsi que certaines données connexes. Nous démontrons d'abord la curation de ce jeu de données à grande échelle, un processus long et coûteux. Ensuite, nous montrons en quoi le VidProM proposé diffère de DiffusionDB, un jeu de données à grande échelle de prompts pour la génération d'images. Sur la base de l'analyse de ces prompts, nous identifions la nécessité d'un nouveau jeu de données de prompts spécifiquement conçu pour la génération texte-à-vidéo et obtenons des insights sur les préférences des utilisateurs réels lors de la création de vidéos. Notre jeu de données à grande échelle et diversifié inspire également de nombreux nouveaux domaines de recherche passionnants. Par exemple, pour développer des modèles de diffusion texte-à-vidéo meilleurs, plus efficaces et plus sûrs, nous suggérons d'explorer l'ingénierie des prompts texte-à-vidéo, la génération efficace de vidéos et la détection de copies de vidéos pour les modèles de diffusion. Nous mettons le jeu de données collecté VidProM à disposition du public sur GitHub et Hugging Face sous la licence CC-BY-NC 4.0.

English

The arrival of Sora marks a new era for text-to-video diffusion models, bringing significant advancements in video generation and potential applications. However, Sora, as well as other text-to-video diffusion models, highly relies on the prompts, and there is no publicly available dataset featuring a study of text-to-video prompts. In this paper, we introduce VidProM, the first large-scale dataset comprising 1.67 million unique text-to-video prompts from real users. Additionally, the dataset includes 6.69 million videos generated by four state-of-the-art diffusion models and some related data. We initially demonstrate the curation of this large-scale dataset, which is a time-consuming and costly process. Subsequently, we show how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery dataset for image generation. Based on the analysis of these prompts, we identify the necessity for a new prompt dataset specifically designed for text-to-video generation and gain insights into the preferences of real users when creating videos. Our large-scale and diverse dataset also inspires many exciting new research areas. For instance, to develop better, more efficient, and safer text-to-video diffusion models, we suggest exploring text-to-video prompt engineering, efficient video generation, and video copy detection for diffusion models. We make the collected dataset VidProM publicly available at GitHub and Hugging Face under the CC-BY- NC 4.0 License.

VidProM : Un jeu de données d'un million de prompts réels pour les modèles de diffusion texte-vidéo

VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models

papers.abstract

Support