ChatPaper.aiChatPaper

Pix2Gif: Geração de GIFs com Difusão Guiada por Movimento

Pix2Gif: Motion-Guided Diffusion for GIF Generation

March 7, 2024
Autores: Hitesh Kandala, Jianfeng Gao, Jianwei Yang
cs.AI

Resumo

Apresentamos o Pix2Gif, um modelo de difusão guiado por movimento para a geração de imagem-para-GIF (vídeo). Abordamos esse problema de forma diferente, formulando a tarefa como um problema de tradução de imagem orientado por prompts de texto e magnitude de movimento, conforme mostrado na figura teaser. Para garantir que o modelo adira à orientação de movimento, propomos um novo módulo de deformação guiado por movimento para transformar espacialmente as características da imagem de origem condicionadas aos dois tipos de prompts. Além disso, introduzimos uma função de perda perceptual para garantir que o mapa de características transformado permaneça no mesmo espaço da imagem de destino, assegurando consistência e coerência de conteúdo. Na preparação para o treinamento do modelo, curamos meticulosamente os dados, extraindo quadros de imagem coerentes do conjunto de dados TGIF de vídeo-legenda, que fornece informações ricas sobre as mudanças temporais dos sujeitos. Após o pré-treinamento, aplicamos nosso modelo de maneira zero-shot a vários conjuntos de dados de vídeo. Experimentos qualitativos e quantitativos extensivos demonstram a eficácia do nosso modelo — ele não apenas captura o prompt semântico do texto, mas também os espaciais da orientação de movimento. Treinamos todos os nossos modelos usando um único nó com 16 GPUs V100. Código, conjunto de dados e modelos estão disponíveis publicamente em: https://hiteshk03.github.io/Pix2Gif/.
English
We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video) generation. We tackle this problem differently by formulating the task as an image translation problem steered by text and motion magnitude prompts, as shown in teaser fig. To ensure that the model adheres to motion guidance, we propose a new motion-guided warping module to spatially transform the features of the source image conditioned on the two types of prompts. Furthermore, we introduce a perceptual loss to ensure the transformed feature map remains within the same space as the target image, ensuring content consistency and coherence. In preparation for the model training, we meticulously curated data by extracting coherent image frames from the TGIF video-caption dataset, which provides rich information about the temporal changes of subjects. After pretraining, we apply our model in a zero-shot manner to a number of video datasets. Extensive qualitative and quantitative experiments demonstrate the effectiveness of our model -- it not only captures the semantic prompt from text but also the spatial ones from motion guidance. We train all our models using a single node of 16xV100 GPUs. Code, dataset and models are made public at: https://hiteshk03.github.io/Pix2Gif/.
PDF181December 15, 2024