TIP-I2V : Un jeu de données à grande échelle d'un million de prompts texte et image réels pour la génération vidéo à partir d'images

papers.abstract

Les modèles de génération vidéo révolutionnent la création de contenu, avec les modèles image-à-vidéo qui attirent une attention croissante grâce à leur contrôlabilité accrue, leur cohérence visuelle et leurs applications pratiques. Cependant, malgré leur popularité, ces modèles s'appuient sur des invites textuelles et visuelles fournies par les utilisateurs, et il n'existe actuellement aucun jeu de données dédié à l'étude de ces invites. Dans cet article, nous présentons TIP-I2V, le premier jeu de données à grande échelle comprenant plus de 1,70 million d'invites textuelles et visuelles uniques fournies par les utilisateurs, spécifiquement conçu pour la génération image-à-vidéo. Nous fournissons également les vidéos générées correspondantes issues de cinq modèles image-à-vidéo de pointe. Nous commençons par décrire le processus long et coûteux de curation de ce jeu de données à grande échelle. Ensuite, nous comparons TIP-I2V à deux jeux de données d'invites populaires, VidProM (texte-à-vidéo) et DiffusionDB (texte-à-image), en mettant en évidence les différences dans les informations de base et sémantiques. Ce jeu de données permet des avancées dans la recherche sur la génération image-à-vidéo. Par exemple, pour développer de meilleurs modèles, les chercheurs peuvent utiliser les invites de TIP-I2V pour analyser les préférences des utilisateurs et évaluer les performances multidimensionnelles de leurs modèles entraînés ; et pour améliorer la sécurité des modèles, ils peuvent se concentrer sur la résolution du problème de désinformation causé par les modèles image-à-vidéo. Les nouvelles recherches inspirées par TIP-I2V et les différences avec les jeux de données existants soulignent l'importance d'un jeu de données d'invites spécialisé pour la génération image-à-vidéo. Le projet est accessible publiquement à l'adresse https://tip-i2v.github.io.

English

Video generation models are revolutionizing content creation, with image-to-video models drawing increasing attention due to their enhanced controllability, visual consistency, and practical applications. However, despite their popularity, these models rely on user-provided text and image prompts, and there is currently no dedicated dataset for studying these prompts. In this paper, we introduce TIP-I2V, the first large-scale dataset of over 1.70 million unique user-provided Text and Image Prompts specifically for Image-to-Video generation. Additionally, we provide the corresponding generated videos from five state-of-the-art image-to-video models. We begin by outlining the time-consuming and costly process of curating this large-scale dataset. Next, we compare TIP-I2V to two popular prompt datasets, VidProM (text-to-video) and DiffusionDB (text-to-image), highlighting differences in both basic and semantic information. This dataset enables advancements in image-to-video research. For instance, to develop better models, researchers can use the prompts in TIP-I2V to analyze user preferences and evaluate the multi-dimensional performance of their trained models; and to enhance model safety, they may focus on addressing the misinformation issue caused by image-to-video models. The new research inspired by TIP-I2V and the differences with existing datasets emphasize the importance of a specialized image-to-video prompt dataset. The project is publicly available at https://tip-i2v.github.io.

TIP-I2V : Un jeu de données à grande échelle d'un million de prompts texte et image réels pour la génération vidéo à partir d'images

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

papers.abstract

Support