VidProM: Um Conjunto de Dados em Escala de Milhões de Galerias de Prompts Reais para Modelos de Difusão de Texto para Vídeo
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models
March 10, 2024
Autores: Wenhao Wang, Yi Yang
cs.AI
Resumo
A chegada do Sora marca uma nova era para os modelos de difusão texto-para-vídeo, trazendo avanços significativos na geração de vídeos e potenciais aplicações. No entanto, o Sora, assim como outros modelos de difusão texto-para-vídeo, depende fortemente dos prompts, e não há um conjunto de dados publicamente disponível que apresente um estudo sobre prompts texto-para-vídeo. Neste artigo, apresentamos o VidProM, o primeiro conjunto de dados em larga escala composto por 1,67 milhão de prompts texto-para-vídeo únicos de usuários reais. Além disso, o conjunto de dados inclui 6,69 milhões de vídeos gerados por quatro modelos de difusão state-of-the-art e alguns dados relacionados. Inicialmente, demonstramos a curadoria desse conjunto de dados em larga escala, que é um processo demorado e custoso. Em seguida, mostramos como o VidProM proposto difere do DiffusionDB, um conjunto de dados em larga escala de galeria de prompts para geração de imagens. Com base na análise desses prompts, identificamos a necessidade de um novo conjunto de dados de prompts especificamente projetado para geração texto-para-vídeo e obtemos insights sobre as preferências dos usuários reais ao criar vídeos. Nosso conjunto de dados em larga escala e diversificado também inspira muitas novas áreas de pesquisa empolgantes. Por exemplo, para desenvolver modelos de difusão texto-para-vídeo melhores, mais eficientes e seguros, sugerimos explorar a engenharia de prompts texto-para-vídeo, a geração eficiente de vídeos e a detecção de cópias de vídeos para modelos de difusão. Disponibilizamos o conjunto de dados coletado VidProM publicamente no GitHub e no Hugging Face sob a Licença CC-BY-NC 4.0.
English
The arrival of Sora marks a new era for text-to-video diffusion models,
bringing significant advancements in video generation and potential
applications. However, Sora, as well as other text-to-video diffusion models,
highly relies on the prompts, and there is no publicly available dataset
featuring a study of text-to-video prompts. In this paper, we introduce
VidProM, the first large-scale dataset comprising 1.67 million unique
text-to-video prompts from real users. Additionally, the dataset includes 6.69
million videos generated by four state-of-the-art diffusion models and some
related data. We initially demonstrate the curation of this large-scale
dataset, which is a time-consuming and costly process. Subsequently, we show
how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery
dataset for image generation. Based on the analysis of these prompts, we
identify the necessity for a new prompt dataset specifically designed for
text-to-video generation and gain insights into the preferences of real users
when creating videos. Our large-scale and diverse dataset also inspires many
exciting new research areas. For instance, to develop better, more efficient,
and safer text-to-video diffusion models, we suggest exploring text-to-video
prompt engineering, efficient video generation, and video copy detection for
diffusion models. We make the collected dataset VidProM publicly available at
GitHub and Hugging Face under the CC-BY- NC 4.0 License.