ChatPaper.aiChatPaper

Pix2Gif : Génération de GIF par diffusion guidée par le mouvement

Pix2Gif: Motion-Guided Diffusion for GIF Generation

March 7, 2024
Auteurs: Hitesh Kandala, Jianfeng Gao, Jianwei Yang
cs.AI

Résumé

Nous présentons Pix2Gif, un modèle de diffusion guidé par le mouvement pour la génération d'images vers GIF (vidéo). Nous abordons ce problème différemment en formulant la tâche comme un problème de traduction d'images piloté par des invites textuelles et de magnitude de mouvement, comme illustré dans la figure d'aperçu. Pour garantir que le modèle respecte le guidage du mouvement, nous proposons un nouveau module de déformation guidé par le mouvement pour transformer spatialement les caractéristiques de l'image source en fonction des deux types d'invites. De plus, nous introduisons une perte perceptuelle pour s'assurer que la carte de caractéristiques transformée reste dans le même espace que l'image cible, garantissant ainsi la cohérence et la continuité du contenu. En préparation pour l'entraînement du modèle, nous avons soigneusement sélectionné les données en extrayant des trames d'images cohérentes du jeu de données vidéo-légende TGIF, qui fournit des informations riches sur les changements temporels des sujets. Après le pré-entraînement, nous appliquons notre modèle de manière zero-shot à plusieurs jeux de données vidéo. Des expériences qualitatives et quantitatives approfondies démontrent l'efficacité de notre modèle — il capture non seulement l'invite sémantique du texte mais aussi les invites spatiales du guidage du mouvement. Nous entraînons tous nos modèles en utilisant un seul nœud de 16 GPU V100. Le code, le jeu de données et les modèles sont rendus publics à l'adresse suivante : https://hiteshk03.github.io/Pix2Gif/.
English
We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video) generation. We tackle this problem differently by formulating the task as an image translation problem steered by text and motion magnitude prompts, as shown in teaser fig. To ensure that the model adheres to motion guidance, we propose a new motion-guided warping module to spatially transform the features of the source image conditioned on the two types of prompts. Furthermore, we introduce a perceptual loss to ensure the transformed feature map remains within the same space as the target image, ensuring content consistency and coherence. In preparation for the model training, we meticulously curated data by extracting coherent image frames from the TGIF video-caption dataset, which provides rich information about the temporal changes of subjects. After pretraining, we apply our model in a zero-shot manner to a number of video datasets. Extensive qualitative and quantitative experiments demonstrate the effectiveness of our model -- it not only captures the semantic prompt from text but also the spatial ones from motion guidance. We train all our models using a single node of 16xV100 GPUs. Code, dataset and models are made public at: https://hiteshk03.github.io/Pix2Gif/.
PDF181December 15, 2024