ChatPaper.aiChatPaper

Pix2Gif: Difusión Guiada por Movimiento para la Generación de GIFs

Pix2Gif: Motion-Guided Diffusion for GIF Generation

March 7, 2024
Autores: Hitesh Kandala, Jianfeng Gao, Jianwei Yang
cs.AI

Resumen

Presentamos Pix2Gif, un modelo de difusión guiado por movimiento para la generación de imagen a GIF (video). Abordamos este problema de manera diferente formulando la tarea como un problema de traducción de imágenes dirigido por indicaciones de texto y magnitud de movimiento, como se muestra en la figura de avance. Para garantizar que el modelo se adhiera a la guía de movimiento, proponemos un nuevo módulo de deformación guiado por movimiento que transforma espacialmente las características de la imagen fuente condicionadas por los dos tipos de indicaciones. Además, introducimos una pérdida perceptual para asegurar que el mapa de características transformado permanezca en el mismo espacio que la imagen objetivo, garantizando consistencia y coherencia en el contenido. En preparación para el entrenamiento del modelo, seleccionamos meticulosamente los datos extrayendo fotogramas coherentes del conjunto de datos TGIF de video-caption, que proporciona información rica sobre los cambios temporales de los sujetos. Después del preentrenamiento, aplicamos nuestro modelo de manera zero-shot a varios conjuntos de datos de video. Experimentos cualitativos y cuantitativos extensos demuestran la efectividad de nuestro modelo: no solo captura la indicación semántica del texto, sino también las espaciales de la guía de movimiento. Entrenamos todos nuestros modelos utilizando un solo nodo con 16 GPUs V100. El código, el conjunto de datos y los modelos están disponibles públicamente en: https://hiteshk03.github.io/Pix2Gif/.
English
We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video) generation. We tackle this problem differently by formulating the task as an image translation problem steered by text and motion magnitude prompts, as shown in teaser fig. To ensure that the model adheres to motion guidance, we propose a new motion-guided warping module to spatially transform the features of the source image conditioned on the two types of prompts. Furthermore, we introduce a perceptual loss to ensure the transformed feature map remains within the same space as the target image, ensuring content consistency and coherence. In preparation for the model training, we meticulously curated data by extracting coherent image frames from the TGIF video-caption dataset, which provides rich information about the temporal changes of subjects. After pretraining, we apply our model in a zero-shot manner to a number of video datasets. Extensive qualitative and quantitative experiments demonstrate the effectiveness of our model -- it not only captures the semantic prompt from text but also the spatial ones from motion guidance. We train all our models using a single node of 16xV100 GPUs. Code, dataset and models are made public at: https://hiteshk03.github.io/Pix2Gif/.
PDF181December 15, 2024