VidProM: Un conjunto de datos a gran escala de galerías de prompts reales para modelos de difusión de texto a video
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models
March 10, 2024
Autores: Wenhao Wang, Yi Yang
cs.AI
Resumen
La llegada de Sora marca una nueva era para los modelos de difusión de texto a video, trayendo avances significativos en la generación de videos y sus posibles aplicaciones. Sin embargo, Sora, así como otros modelos de difusión de texto a video, dependen en gran medida de los prompts, y no existe un conjunto de datos público que incluya un estudio de prompts para texto a video. En este artículo, presentamos VidProM, el primer conjunto de datos a gran escala que comprende 1.67 millones de prompts únicos de texto a video de usuarios reales. Además, el conjunto de datos incluye 6.69 millones de videos generados por cuatro modelos de difusión de última generación y algunos datos relacionados. Inicialmente, demostramos la creación de este conjunto de datos a gran escala, un proceso que consume tiempo y es costoso. Posteriormente, mostramos cómo el VidProM propuesto difiere de DiffusionDB, un conjunto de datos a gran escala de prompts para la generación de imágenes. Basándonos en el análisis de estos prompts, identificamos la necesidad de un nuevo conjunto de datos de prompts específicamente diseñado para la generación de texto a video y obtenemos información sobre las preferencias de los usuarios reales al crear videos. Nuestro conjunto de datos, grande y diverso, también inspira muchas áreas de investigación nuevas y emocionantes. Por ejemplo, para desarrollar modelos de difusión de texto a video mejores, más eficientes y seguros, sugerimos explorar la ingeniería de prompts de texto a video, la generación eficiente de videos y la detección de copias de videos para modelos de difusión. Hacemos que el conjunto de datos recopilado VidProM esté disponible públicamente en GitHub y Hugging Face bajo la licencia CC-BY-NC 4.0.
English
The arrival of Sora marks a new era for text-to-video diffusion models,
bringing significant advancements in video generation and potential
applications. However, Sora, as well as other text-to-video diffusion models,
highly relies on the prompts, and there is no publicly available dataset
featuring a study of text-to-video prompts. In this paper, we introduce
VidProM, the first large-scale dataset comprising 1.67 million unique
text-to-video prompts from real users. Additionally, the dataset includes 6.69
million videos generated by four state-of-the-art diffusion models and some
related data. We initially demonstrate the curation of this large-scale
dataset, which is a time-consuming and costly process. Subsequently, we show
how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery
dataset for image generation. Based on the analysis of these prompts, we
identify the necessity for a new prompt dataset specifically designed for
text-to-video generation and gain insights into the preferences of real users
when creating videos. Our large-scale and diverse dataset also inspires many
exciting new research areas. For instance, to develop better, more efficient,
and safer text-to-video diffusion models, we suggest exploring text-to-video
prompt engineering, efficient video generation, and video copy detection for
diffusion models. We make the collected dataset VidProM publicly available at
GitHub and Hugging Face under the CC-BY- NC 4.0 License.Summary
AI-Generated Summary