Pix2Gif: Диффузия, управляемая движением, для генерации GIF.
Pix2Gif: Motion-Guided Diffusion for GIF Generation
March 7, 2024
Авторы: Hitesh Kandala, Jianfeng Gao, Jianwei Yang
cs.AI
Аннотация
Мы представляем Pix2Gif, модель диффузии, управляемую движением, для генерации изображения в формат GIF (видео). Мы решаем эту проблему по-другому, формулируя задачу как проблему перевода изображения, управляемую текстом и величиной движения, как показано на иллюстрации. Чтобы гарантировать, что модель следует указаниям движения, мы предлагаем новый модуль искажения, управляемый движением, для пространственного преобразования признаков исходного изображения, условие которого зависит от двух типов указаний. Более того, мы вводим потерю восприятия для обеспечения того, чтобы преобразованная карта признаков оставалась в том же пространстве, что и целевое изображение, гарантируя согласованность и последовательность контента. В преддверии обучения модели мы тщательно подготовили данные, извлекая согласованные кадры изображения из набора данных TGIF с описанием видео, который предоставляет обширную информацию о временных изменениях объектов. После предварительного обучения мы применяем нашу модель в режиме нулевой настройки к ряду видео-наборов данных. Обширные качественные и количественные эксперименты демонстрируют эффективность нашей модели - она не только улавливает семантическое указание из текста, но и пространственные указания из управления движением. Мы обучаем все наши модели, используя один узел с 16xV100 графическими процессорами. Код, набор данных и модели доступны по ссылке: https://hiteshk03.github.io/Pix2Gif/.
English
We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video)
generation. We tackle this problem differently by formulating the task as an
image translation problem steered by text and motion magnitude prompts, as
shown in teaser fig. To ensure that the model adheres to motion guidance, we
propose a new motion-guided warping module to spatially transform the features
of the source image conditioned on the two types of prompts. Furthermore, we
introduce a perceptual loss to ensure the transformed feature map remains
within the same space as the target image, ensuring content consistency and
coherence. In preparation for the model training, we meticulously curated data
by extracting coherent image frames from the TGIF video-caption dataset, which
provides rich information about the temporal changes of subjects. After
pretraining, we apply our model in a zero-shot manner to a number of video
datasets. Extensive qualitative and quantitative experiments demonstrate the
effectiveness of our model -- it not only captures the semantic prompt from
text but also the spatial ones from motion guidance. We train all our models
using a single node of 16xV100 GPUs. Code, dataset and models are made public
at: https://hiteshk03.github.io/Pix2Gif/.