VidProM: Un conjunto de datos a gran escala de galerías de prompts reales para modelos de difusión de texto a video

Resumen

La llegada de Sora marca una nueva era para los modelos de difusión de texto a video, trayendo avances significativos en la generación de videos y sus posibles aplicaciones. Sin embargo, Sora, así como otros modelos de difusión de texto a video, dependen en gran medida de los prompts, y no existe un conjunto de datos público que incluya un estudio de prompts para texto a video. En este artículo, presentamos VidProM, el primer conjunto de datos a gran escala que comprende 1.67 millones de prompts únicos de texto a video de usuarios reales. Además, el conjunto de datos incluye 6.69 millones de videos generados por cuatro modelos de difusión de última generación y algunos datos relacionados. Inicialmente, demostramos la creación de este conjunto de datos a gran escala, un proceso que consume tiempo y es costoso. Posteriormente, mostramos cómo el VidProM propuesto difiere de DiffusionDB, un conjunto de datos a gran escala de prompts para la generación de imágenes. Basándonos en el análisis de estos prompts, identificamos la necesidad de un nuevo conjunto de datos de prompts específicamente diseñado para la generación de texto a video y obtenemos información sobre las preferencias de los usuarios reales al crear videos. Nuestro conjunto de datos, grande y diverso, también inspira muchas áreas de investigación nuevas y emocionantes. Por ejemplo, para desarrollar modelos de difusión de texto a video mejores, más eficientes y seguros, sugerimos explorar la ingeniería de prompts de texto a video, la generación eficiente de videos y la detección de copias de videos para modelos de difusión. Hacemos que el conjunto de datos recopilado VidProM esté disponible públicamente en GitHub y Hugging Face bajo la licencia CC-BY-NC 4.0.

English

The arrival of Sora marks a new era for text-to-video diffusion models, bringing significant advancements in video generation and potential applications. However, Sora, as well as other text-to-video diffusion models, highly relies on the prompts, and there is no publicly available dataset featuring a study of text-to-video prompts. In this paper, we introduce VidProM, the first large-scale dataset comprising 1.67 million unique text-to-video prompts from real users. Additionally, the dataset includes 6.69 million videos generated by four state-of-the-art diffusion models and some related data. We initially demonstrate the curation of this large-scale dataset, which is a time-consuming and costly process. Subsequently, we show how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery dataset for image generation. Based on the analysis of these prompts, we identify the necessity for a new prompt dataset specifically designed for text-to-video generation and gain insights into the preferences of real users when creating videos. Our large-scale and diverse dataset also inspires many exciting new research areas. For instance, to develop better, more efficient, and safer text-to-video diffusion models, we suggest exploring text-to-video prompt engineering, efficient video generation, and video copy detection for diffusion models. We make the collected dataset VidProM publicly available at GitHub and Hugging Face under the CC-BY- NC 4.0 License.

VidProM: Un conjunto de datos a gran escala de galerías de prompts reales para modelos de difusión de texto a video

VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models

Resumen

Support