ChatPaper.aiChatPaper

VidProM: Ein Real Prompt-Galerie-Datensatz im Millionenmaßstab für Text-zu-Video-Diffusionsmodelle

VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models

March 10, 2024
Autoren: Wenhao Wang, Yi Yang
cs.AI

Zusammenfassung

Die Einführung von Sora markiert eine neue Ära für Text-zu-Video-Diffusionsmodelle und bringt signifikante Fortschritte in der Videogenerierung und potenziellen Anwendungen. Sora und andere Text-zu-Video-Diffusionsmodelle sind jedoch stark auf die Eingabeaufforderungen angewiesen, und es gibt kein öffentlich verfügbares Datenset, das eine Untersuchung von Text-zu-Video-Eingabeaufforderungen enthält. In diesem Artikel stellen wir VidProM vor, das erste Datenset im großen Maßstab, das 1,67 Millionen einzigartige Text-zu-Video-Eingabeaufforderungen von echten Benutzern enthält. Darüber hinaus umfasst das Datenset 6,69 Millionen Videos, die von vier hochmodernen Diffusionsmodellen generiert wurden, sowie einige verwandte Daten. Wir zeigen zunächst die Kuratierung dieses Datensets im großen Maßstab, was ein zeitaufwändiger und kostspieliger Prozess ist. Anschließend zeigen wir, wie sich das vorgeschlagene VidProM von DiffusionDB unterscheidet, einem Datenset im großen Maßstab für Bildgenerierung. Basierend auf der Analyse dieser Eingabeaufforderungen identifizieren wir die Notwendigkeit eines neuen Eingabeaufforderungsdatensets, das speziell für die Text-zu-Video-Generierung konzipiert ist, und gewinnen Einblicke in die Vorlieben echter Benutzer bei der Erstellung von Videos. Unser umfangreiches und vielfältiges Datenset inspiriert auch viele aufregende neue Forschungsbereiche. Beispielsweise schlagen wir vor, zur Entwicklung besserer, effizienterer und sichererer Text-zu-Video-Diffusionsmodelle die Erforschung von Text-zu-Video-Eingabeaufforderungs-Engineering, effizienter Videogenerierung und Videokopieerkennung für Diffusionsmodelle zu untersuchen. Wir stellen das gesammelte Datenset VidProM öffentlich auf GitHub und Hugging Face unter der CC-BY-NC 4.0 Lizenz zur Verfügung.
English
The arrival of Sora marks a new era for text-to-video diffusion models, bringing significant advancements in video generation and potential applications. However, Sora, as well as other text-to-video diffusion models, highly relies on the prompts, and there is no publicly available dataset featuring a study of text-to-video prompts. In this paper, we introduce VidProM, the first large-scale dataset comprising 1.67 million unique text-to-video prompts from real users. Additionally, the dataset includes 6.69 million videos generated by four state-of-the-art diffusion models and some related data. We initially demonstrate the curation of this large-scale dataset, which is a time-consuming and costly process. Subsequently, we show how the proposed VidProM differs from DiffusionDB, a large-scale prompt-gallery dataset for image generation. Based on the analysis of these prompts, we identify the necessity for a new prompt dataset specifically designed for text-to-video generation and gain insights into the preferences of real users when creating videos. Our large-scale and diverse dataset also inspires many exciting new research areas. For instance, to develop better, more efficient, and safer text-to-video diffusion models, we suggest exploring text-to-video prompt engineering, efficient video generation, and video copy detection for diffusion models. We make the collected dataset VidProM publicly available at GitHub and Hugging Face under the CC-BY- NC 4.0 License.

Summary

AI-Generated Summary

PDF174December 15, 2024