VidProM: Een miljoen-schaal echte prompt-galerij dataset voor tekst-naar-video diffusiemodellen
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models
March 10, 2024
Auteurs: Wenhao Wang, Yi Yang
cs.AI
Samenvatting
De komst van Sora markeert een nieuw tijdperk voor tekst-naar-video diffusiemodellen, met aanzienlijke vooruitgang in videogeneratie en potentiële toepassingen. Echter, Sora, evenals andere tekst-naar-video diffusiemodellen, is sterk afhankelijk van de prompts, en er is geen publiek beschikbare dataset die een studie van tekst-naar-video prompts omvat. In dit artikel introduceren we VidProM, de eerste grootschalige dataset die bestaat uit 1,67 miljoen unieke tekst-naar-video prompts van echte gebruikers. Daarnaast bevat de dataset 6,69 miljoen video's gegenereerd door vier state-of-the-art diffusiemodellen en enkele gerelateerde gegevens. We tonen aanvankelijk de samenstelling van deze grootschalige dataset, wat een tijdrovend en kostbaar proces is. Vervolgens laten we zien hoe de voorgestelde VidProM verschilt van DiffusionDB, een grootschalige prompt-galerij dataset voor beeldgeneratie. Op basis van de analyse van deze prompts identificeren we de noodzaak voor een nieuwe prompt dataset die specifiek is ontworpen voor tekst-naar-video generatie en krijgen we inzicht in de voorkeuren van echte gebruikers bij het maken van video's. Onze grootschalige en diverse dataset inspireert ook veel nieuwe onderzoeksgebieden. Om bijvoorbeeld betere, efficiëntere en veiligere tekst-naar-video diffusiemodellen te ontwikkelen, stellen we voor om tekst-naar-video prompt engineering, efficiënte videogeneratie en videokopie-detectie voor diffusiemodellen te verkennen. We maken de verzamelde dataset VidProM publiekelijk beschikbaar op GitHub en Hugging Face onder de CC-BY-NC 4.0 Licentie.
English
The arrival of Sora marks a new era for text-to-video diffusion models,
bringing significant advancements in video generation and potential
applications. However, Sora, as well as other text-to-video diffusion models,
highly relies on the prompts, and there is no publicly available dataset
featuring a study of text-to-video prompts. In this paper, we introduce
VidProM, the first large-scale dataset comprising 1.67 million unique
text-to-video prompts from real users. Additionally, the dataset includes 6.69
million videos generated by four state-of-the-art diffusion models and some
related data. We initially demonstrate the curation of this large-scale
dataset, which is a time-consuming and costly process. Subsequently, we show
how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery
dataset for image generation. Based on the analysis of these prompts, we
identify the necessity for a new prompt dataset specifically designed for
text-to-video generation and gain insights into the preferences of real users
when creating videos. Our large-scale and diverse dataset also inspires many
exciting new research areas. For instance, to develop better, more efficient,
and safer text-to-video diffusion models, we suggest exploring text-to-video
prompt engineering, efficient video generation, and video copy detection for
diffusion models. We make the collected dataset VidProM publicly available at
GitHub and Hugging Face under the CC-BY- NC 4.0 License.