VidProM: Um Conjunto de Dados em Escala de Milhões de Galerias de Prompts Reais para Modelos de Difusão de Texto para Vídeo

Resumo

A chegada do Sora marca uma nova era para os modelos de difusão texto-para-vídeo, trazendo avanços significativos na geração de vídeos e potenciais aplicações. No entanto, o Sora, assim como outros modelos de difusão texto-para-vídeo, depende fortemente dos prompts, e não há um conjunto de dados publicamente disponível que apresente um estudo sobre prompts texto-para-vídeo. Neste artigo, apresentamos o VidProM, o primeiro conjunto de dados em larga escala composto por 1,67 milhão de prompts texto-para-vídeo únicos de usuários reais. Além disso, o conjunto de dados inclui 6,69 milhões de vídeos gerados por quatro modelos de difusão state-of-the-art e alguns dados relacionados. Inicialmente, demonstramos a curadoria desse conjunto de dados em larga escala, que é um processo demorado e custoso. Em seguida, mostramos como o VidProM proposto difere do DiffusionDB, um conjunto de dados em larga escala de galeria de prompts para geração de imagens. Com base na análise desses prompts, identificamos a necessidade de um novo conjunto de dados de prompts especificamente projetado para geração texto-para-vídeo e obtemos insights sobre as preferências dos usuários reais ao criar vídeos. Nosso conjunto de dados em larga escala e diversificado também inspira muitas novas áreas de pesquisa empolgantes. Por exemplo, para desenvolver modelos de difusão texto-para-vídeo melhores, mais eficientes e seguros, sugerimos explorar a engenharia de prompts texto-para-vídeo, a geração eficiente de vídeos e a detecção de cópias de vídeos para modelos de difusão. Disponibilizamos o conjunto de dados coletado VidProM publicamente no GitHub e no Hugging Face sob a Licença CC-BY-NC 4.0.

English

The arrival of Sora marks a new era for text-to-video diffusion models, bringing significant advancements in video generation and potential applications. However, Sora, as well as other text-to-video diffusion models, highly relies on the prompts, and there is no publicly available dataset featuring a study of text-to-video prompts. In this paper, we introduce VidProM, the first large-scale dataset comprising 1.67 million unique text-to-video prompts from real users. Additionally, the dataset includes 6.69 million videos generated by four state-of-the-art diffusion models and some related data. We initially demonstrate the curation of this large-scale dataset, which is a time-consuming and costly process. Subsequently, we show how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery dataset for image generation. Based on the analysis of these prompts, we identify the necessity for a new prompt dataset specifically designed for text-to-video generation and gain insights into the preferences of real users when creating videos. Our large-scale and diverse dataset also inspires many exciting new research areas. For instance, to develop better, more efficient, and safer text-to-video diffusion models, we suggest exploring text-to-video prompt engineering, efficient video generation, and video copy detection for diffusion models. We make the collected dataset VidProM publicly available at GitHub and Hugging Face under the CC-BY- NC 4.0 License.

VidProM: Um Conjunto de Dados em Escala de Milhões de Galerias de Prompts Reais para Modelos de Difusão de Texto para Vídeo

VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models

Resumo

Support