Pix2Gif: Bewegingsgestuurde diffusie voor GIF-generatie
Pix2Gif: Motion-Guided Diffusion for GIF Generation
March 7, 2024
Auteurs: Hitesh Kandala, Jianfeng Gao, Jianwei Yang
cs.AI
Samenvatting
We presenteren Pix2Gif, een motion-guided diffusiemodel voor image-to-GIF (video) generatie. We benaderen dit probleem anders door de taak te formuleren als een beeldvertaalprobleem dat wordt gestuurd door tekst- en bewegingsmagnitude prompts, zoals getoond in de teaser figuur. Om ervoor te zorgen dat het model de bewegingsbegeleiding volgt, stellen we een nieuwe motion-guided warping module voor om de kenmerken van de bronafbeelding ruimtelijk te transformeren, afhankelijk van de twee soorten prompts. Bovendien introduceren we een perceptueel verlies om ervoor te zorgen dat de getransformeerde kenmerkenkaart binnen dezelfde ruimte blijft als de doelafbeelding, wat inhoudelijke consistentie en samenhang garandeert. Ter voorbereiding op de modeltraining hebben we zorgvuldig data samengesteld door samenhangende beeldframes te extraheren uit de TGIF video-caption dataset, die rijke informatie biedt over de temporele veranderingen van onderwerpen. Na de voorafgaande training passen we ons model op een zero-shot manier toe op een aantal videodatasets. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen de effectiviteit van ons model aan – het vangt niet alleen de semantische prompt uit tekst, maar ook de ruimtelijke prompts uit de bewegingsbegeleiding. We trainen al onze modellen met behulp van een enkele node van 16xV100 GPU's. Code, dataset en modellen zijn openbaar gemaakt op: https://hiteshk03.github.io/Pix2Gif/.
English
We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video)
generation. We tackle this problem differently by formulating the task as an
image translation problem steered by text and motion magnitude prompts, as
shown in teaser fig. To ensure that the model adheres to motion guidance, we
propose a new motion-guided warping module to spatially transform the features
of the source image conditioned on the two types of prompts. Furthermore, we
introduce a perceptual loss to ensure the transformed feature map remains
within the same space as the target image, ensuring content consistency and
coherence. In preparation for the model training, we meticulously curated data
by extracting coherent image frames from the TGIF video-caption dataset, which
provides rich information about the temporal changes of subjects. After
pretraining, we apply our model in a zero-shot manner to a number of video
datasets. Extensive qualitative and quantitative experiments demonstrate the
effectiveness of our model -- it not only captures the semantic prompt from
text but also the spatial ones from motion guidance. We train all our models
using a single node of 16xV100 GPUs. Code, dataset and models are made public
at: https://hiteshk03.github.io/Pix2Gif/.