VidProM: Un dataset su larga scala di prompt-gallerie reali per modelli di diffusione testo-video
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models
March 10, 2024
Autori: Wenhao Wang, Yi Yang
cs.AI
Abstract
L'arrivo di Sora segna una nuova era per i modelli di diffusione testo-video, portando significativi progressi nella generazione di video e potenziali applicazioni. Tuttavia, Sora, così come altri modelli di diffusione testo-video, dipende fortemente dai prompt, e non esiste un dataset pubblico che includa uno studio sui prompt testo-video. In questo articolo, introduciamo VidProM, il primo dataset su larga scala composto da 1,67 milioni di prompt testo-video unici provenienti da utenti reali. Inoltre, il dataset include 6,69 milioni di video generati da quattro modelli di diffusione all'avanguardia e alcuni dati correlati. Inizialmente dimostriamo la creazione di questo dataset su larga scala, un processo che richiede tempo e risorse. Successivamente, mostriamo come il dataset proposto VidProM si differenzi da DiffusionDB, un ampio dataset di prompt per la generazione di immagini. Sulla base dell'analisi di questi prompt, identifichiamo la necessità di un nuovo dataset di prompt specificamente progettato per la generazione testo-video e otteniamo approfondimenti sulle preferenze degli utenti reali nella creazione di video. Il nostro dataset ampio e diversificato ispira anche molte nuove aree di ricerca entusiasmanti. Ad esempio, per sviluppare modelli di diffusione testo-video migliori, più efficienti e sicuri, suggeriamo di esplorare l'ingegneria dei prompt testo-video, la generazione efficiente di video e il rilevamento di copie video per i modelli di diffusione. Rendiamo il dataset raccolto VidProM disponibile pubblicamente su GitHub e Hugging Face con licenza CC-BY-NC 4.0.
English
The arrival of Sora marks a new era for text-to-video diffusion models,
bringing significant advancements in video generation and potential
applications. However, Sora, as well as other text-to-video diffusion models,
highly relies on the prompts, and there is no publicly available dataset
featuring a study of text-to-video prompts. In this paper, we introduce
VidProM, the first large-scale dataset comprising 1.67 million unique
text-to-video prompts from real users. Additionally, the dataset includes 6.69
million videos generated by four state-of-the-art diffusion models and some
related data. We initially demonstrate the curation of this large-scale
dataset, which is a time-consuming and costly process. Subsequently, we show
how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery
dataset for image generation. Based on the analysis of these prompts, we
identify the necessity for a new prompt dataset specifically designed for
text-to-video generation and gain insights into the preferences of real users
when creating videos. Our large-scale and diverse dataset also inspires many
exciting new research areas. For instance, to develop better, more efficient,
and safer text-to-video diffusion models, we suggest exploring text-to-video
prompt engineering, efficient video generation, and video copy detection for
diffusion models. We make the collected dataset VidProM publicly available at
GitHub and Hugging Face under the CC-BY- NC 4.0 License.