Pix2Gif: Bewegungsgesteuerte Diffusion zur GIF-Erzeugung
Pix2Gif: Motion-Guided Diffusion for GIF Generation
March 7, 2024
Autoren: Hitesh Kandala, Jianfeng Gao, Jianwei Yang
cs.AI
Zusammenfassung
Wir präsentieren Pix2Gif, ein bewegungsgesteuertes Diffusionsmodell für die Generierung von Bildern zu GIFs (Videos). Wir gehen dieses Problem anders an, indem wir die Aufgabe als ein Bildübersetzungsproblem formulieren, das durch Text- und Bewegungsgrößenanweisungen gesteuert wird, wie in der Vorschauabbildung gezeigt. Um sicherzustellen, dass das Modell der Bewegungssteuerung folgt, schlagen wir ein neues bewegungsgesteuertes Verzerrungsmodul vor, um die Merkmale des Quellbildes räumlich zu transformieren, abhängig von den beiden Arten von Anweisungen. Darüber hinaus führen wir einen perzeptuellen Verlust ein, um sicherzustellen, dass die transformierte Merkmalskarte im selben Raum wie das Zielbild bleibt, was die inhaltliche Konsistenz und Kohärenz gewährleistet. Zur Vorbereitung des Modelltrainings haben wir Daten sorgfältig kuratiert, indem wir kohärente Bildsequenzen aus dem TGIF Video-Caption-Datensatz extrahierten, der reichhaltige Informationen über die zeitlichen Veränderungen der Motive liefert. Nach dem Pre-Training wenden wir unser Modell in einer Zero-Shot-Weise auf eine Reihe von Videodatensätzen an. Umfangreiche qualitative und quantitative Experimente zeigen die Wirksamkeit unseres Modells - es erfasst nicht nur die semantische Anweisung aus dem Text, sondern auch die räumlichen aus der Bewegungssteuerung. Wir trainieren alle unsere Modelle unter Verwendung eines einzelnen Knotens mit 16xV100 GPUs. Der Code, der Datensatz und die Modelle sind öffentlich zugänglich unter: https://hiteshk03.github.io/Pix2Gif/.
English
We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video)
generation. We tackle this problem differently by formulating the task as an
image translation problem steered by text and motion magnitude prompts, as
shown in teaser fig. To ensure that the model adheres to motion guidance, we
propose a new motion-guided warping module to spatially transform the features
of the source image conditioned on the two types of prompts. Furthermore, we
introduce a perceptual loss to ensure the transformed feature map remains
within the same space as the target image, ensuring content consistency and
coherence. In preparation for the model training, we meticulously curated data
by extracting coherent image frames from the TGIF video-caption dataset, which
provides rich information about the temporal changes of subjects. After
pretraining, we apply our model in a zero-shot manner to a number of video
datasets. Extensive qualitative and quantitative experiments demonstrate the
effectiveness of our model -- it not only captures the semantic prompt from
text but also the spatial ones from motion guidance. We train all our models
using a single node of 16xV100 GPUs. Code, dataset and models are made public
at: https://hiteshk03.github.io/Pix2Gif/.