TIP-I2V: Миллионный набор данных с реальными текстовыми и изобразительными промптами для генерации видео из изображений

Аннотация

Модели генерации видео революционизируют создание контента, при этом модели "изображение-в-видео" привлекают всё больше внимания благодаря своей повышенной управляемости, визуальной согласованности и практической применимости. Однако, несмотря на их популярность, эти модели зависят от предоставляемых пользователем текстовых и графических промптов, и в настоящее время не существует специализированного набора данных для изучения этих промптов. В данной статье мы представляем TIP-I2V — первый масштабный набор данных, содержащий более 1,70 миллиона уникальных текстовых и графических промптов, предоставленных пользователями специально для генерации видео из изображений. Дополнительно мы предоставляем соответствующие сгенерированные видео от пяти передовых моделей типа "изображение-в-видео". Мы начинаем с описания трудоёмкого и затратного процесса кураторства этого масштабного набора данных. Далее мы сравниваем TIP-I2V с двумя популярными наборами промптов — VidProM (текст-в-видео) и DiffusionDB (текст-в-изображение), выделяя различия как в базовой, так и в семантической информации. Этот набор данных позволяет добиться прогресса в исследованиях по генерации видео из изображений. Например, для разработки улучшенных моделей исследователи могут использовать промпты из TIP-I2V для анализа пользовательских предпочтений и оценки многомерной производительности обученных моделей; а для повышения безопасности моделей они могут сосредоточиться на решении проблемы дезинформации, вызванной моделями "изображение-в-видео". Новые исследования, вдохновлённые TIP-I2V, и различия с существующими наборами данных подчёркивают важность специализированного набора промптов для генерации видео из изображений. Проект находится в открытом доступе по адресу https://tip-i2v.github.io.

English

Video generation models are revolutionizing content creation, with image-to-video models drawing increasing attention due to their enhanced controllability, visual consistency, and practical applications. However, despite their popularity, these models rely on user-provided text and image prompts, and there is currently no dedicated dataset for studying these prompts. In this paper, we introduce TIP-I2V, the first large-scale dataset of over 1.70 million unique user-provided Text and Image Prompts specifically for Image-to-Video generation. Additionally, we provide the corresponding generated videos from five state-of-the-art image-to-video models. We begin by outlining the time-consuming and costly process of curating this large-scale dataset. Next, we compare TIP-I2V to two popular prompt datasets, VidProM (text-to-video) and DiffusionDB (text-to-image), highlighting differences in both basic and semantic information. This dataset enables advancements in image-to-video research. For instance, to develop better models, researchers can use the prompts in TIP-I2V to analyze user preferences and evaluate the multi-dimensional performance of their trained models; and to enhance model safety, they may focus on addressing the misinformation issue caused by image-to-video models. The new research inspired by TIP-I2V and the differences with existing datasets emphasize the importance of a specialized image-to-video prompt dataset. The project is publicly available at https://tip-i2v.github.io.

TIP-I2V: Миллионный набор данных с реальными текстовыми и изобразительными промптами для генерации видео из изображений

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Аннотация

Support