TIP-I2V : Un jeu de données à grande échelle d'un million de prompts texte et image réels pour la génération vidéo à partir d'images
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation
November 5, 2024
papers.authors: Wenhao Wang, Yi Yang
cs.AI
papers.abstract
Les modèles de génération vidéo révolutionnent la création de contenu, avec les modèles image-à-vidéo qui attirent une attention croissante grâce à leur contrôlabilité accrue, leur cohérence visuelle et leurs applications pratiques. Cependant, malgré leur popularité, ces modèles s'appuient sur des invites textuelles et visuelles fournies par les utilisateurs, et il n'existe actuellement aucun jeu de données dédié à l'étude de ces invites. Dans cet article, nous présentons TIP-I2V, le premier jeu de données à grande échelle comprenant plus de 1,70 million d'invites textuelles et visuelles uniques fournies par les utilisateurs, spécifiquement conçu pour la génération image-à-vidéo. Nous fournissons également les vidéos générées correspondantes issues de cinq modèles image-à-vidéo de pointe. Nous commençons par décrire le processus long et coûteux de curation de ce jeu de données à grande échelle. Ensuite, nous comparons TIP-I2V à deux jeux de données d'invites populaires, VidProM (texte-à-vidéo) et DiffusionDB (texte-à-image), en mettant en évidence les différences dans les informations de base et sémantiques. Ce jeu de données permet des avancées dans la recherche sur la génération image-à-vidéo. Par exemple, pour développer de meilleurs modèles, les chercheurs peuvent utiliser les invites de TIP-I2V pour analyser les préférences des utilisateurs et évaluer les performances multidimensionnelles de leurs modèles entraînés ; et pour améliorer la sécurité des modèles, ils peuvent se concentrer sur la résolution du problème de désinformation causé par les modèles image-à-vidéo. Les nouvelles recherches inspirées par TIP-I2V et les différences avec les jeux de données existants soulignent l'importance d'un jeu de données d'invites spécialisé pour la génération image-à-vidéo. Le projet est accessible publiquement à l'adresse https://tip-i2v.github.io.
English
Video generation models are revolutionizing content creation, with
image-to-video models drawing increasing attention due to their enhanced
controllability, visual consistency, and practical applications. However,
despite their popularity, these models rely on user-provided text and image
prompts, and there is currently no dedicated dataset for studying these
prompts. In this paper, we introduce TIP-I2V, the first large-scale dataset of
over 1.70 million unique user-provided Text and Image Prompts specifically for
Image-to-Video generation. Additionally, we provide the corresponding generated
videos from five state-of-the-art image-to-video models. We begin by outlining
the time-consuming and costly process of curating this large-scale dataset.
Next, we compare TIP-I2V to two popular prompt datasets, VidProM
(text-to-video) and DiffusionDB (text-to-image), highlighting differences in
both basic and semantic information. This dataset enables advancements in
image-to-video research. For instance, to develop better models, researchers
can use the prompts in TIP-I2V to analyze user preferences and evaluate the
multi-dimensional performance of their trained models; and to enhance model
safety, they may focus on addressing the misinformation issue caused by
image-to-video models. The new research inspired by TIP-I2V and the differences
with existing datasets emphasize the importance of a specialized image-to-video
prompt dataset. The project is publicly available at https://tip-i2v.github.io.