TIP-I2V: Миллионный набор данных с реальными текстовыми и изобразительными промптами для генерации видео из изображений
TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation
November 5, 2024
Авторы: Wenhao Wang, Yi Yang
cs.AI
Аннотация
Модели генерации видео революционизируют создание контента, при этом модели "изображение-в-видео" привлекают всё больше внимания благодаря своей повышенной управляемости, визуальной согласованности и практической применимости. Однако, несмотря на их популярность, эти модели зависят от предоставляемых пользователем текстовых и графических промптов, и в настоящее время не существует специализированного набора данных для изучения этих промптов. В данной статье мы представляем TIP-I2V — первый масштабный набор данных, содержащий более 1,70 миллиона уникальных текстовых и графических промптов, предоставленных пользователями специально для генерации видео из изображений. Дополнительно мы предоставляем соответствующие сгенерированные видео от пяти передовых моделей типа "изображение-в-видео". Мы начинаем с описания трудоёмкого и затратного процесса кураторства этого масштабного набора данных. Далее мы сравниваем TIP-I2V с двумя популярными наборами промптов — VidProM (текст-в-видео) и DiffusionDB (текст-в-изображение), выделяя различия как в базовой, так и в семантической информации. Этот набор данных позволяет добиться прогресса в исследованиях по генерации видео из изображений. Например, для разработки улучшенных моделей исследователи могут использовать промпты из TIP-I2V для анализа пользовательских предпочтений и оценки многомерной производительности обученных моделей; а для повышения безопасности моделей они могут сосредоточиться на решении проблемы дезинформации, вызванной моделями "изображение-в-видео". Новые исследования, вдохновлённые TIP-I2V, и различия с существующими наборами данных подчёркивают важность специализированного набора промптов для генерации видео из изображений. Проект находится в открытом доступе по адресу https://tip-i2v.github.io.
English
Video generation models are revolutionizing content creation, with
image-to-video models drawing increasing attention due to their enhanced
controllability, visual consistency, and practical applications. However,
despite their popularity, these models rely on user-provided text and image
prompts, and there is currently no dedicated dataset for studying these
prompts. In this paper, we introduce TIP-I2V, the first large-scale dataset of
over 1.70 million unique user-provided Text and Image Prompts specifically for
Image-to-Video generation. Additionally, we provide the corresponding generated
videos from five state-of-the-art image-to-video models. We begin by outlining
the time-consuming and costly process of curating this large-scale dataset.
Next, we compare TIP-I2V to two popular prompt datasets, VidProM
(text-to-video) and DiffusionDB (text-to-image), highlighting differences in
both basic and semantic information. This dataset enables advancements in
image-to-video research. For instance, to develop better models, researchers
can use the prompts in TIP-I2V to analyze user preferences and evaluate the
multi-dimensional performance of their trained models; and to enhance model
safety, they may focus on addressing the misinformation issue caused by
image-to-video models. The new research inspired by TIP-I2V and the differences
with existing datasets emphasize the importance of a specialized image-to-video
prompt dataset. The project is publicly available at https://tip-i2v.github.io.