ChatPaper.aiChatPaper

Pix2Gif: GIF 생성을 위한 모션 가이드 확산 모델

Pix2Gif: Motion-Guided Diffusion for GIF Generation

March 7, 2024
저자: Hitesh Kandala, Jianfeng Gao, Jianwei Yang
cs.AI

초록

우리는 이미지에서 GIF(동영상) 생성 작업을 위한 모션 가이드 확산 모델인 Pix2Gif를 소개합니다. 우리는 이 문제를 텍스트와 모션 크기 프롬프트에 의해 조종되는 이미지 변환 문제로 공식화하여 접근 방식을 달리합니다. 모델이 모션 가이드에 충실하도록 보장하기 위해, 두 가지 유형의 프롬프트에 따라 소스 이미지의 특징을 공간적으로 변환하는 새로운 모션 가이드 워핑 모듈을 제안합니다. 또한, 변환된 특징 맵이 대상 이미지와 동일한 공간에 머물도록 하여 콘텐츠 일관성과 통일성을 보장하는 지각 손실(perceptual loss)을 도입합니다. 모델 학습을 준비하기 위해, 우리는 TGIF 비디오-캡션 데이터셋에서 일관된 이미지 프레임을 추출하여 주제의 시간적 변화에 대한 풍부한 정보를 제공하는 데이터를 세심하게 정제했습니다. 사전 학습 후, 우리는 모델을 여러 비디오 데이터셋에 제로샷 방식으로 적용합니다. 광범위한 정성적 및 정량적 실험을 통해 우리 모델의 효과성을 입증했습니다. 이 모델은 텍스트에서 의미론적 프롬프트를 포착할 뿐만 아니라 모션 가이드에서 공간적 프롬프트도 포착합니다. 우리는 모든 모델을 16개의 V100 GPU로 구성된 단일 노드를 사용하여 학습했습니다. 코드, 데이터셋 및 모델은 https://hiteshk03.github.io/Pix2Gif/에서 공개되었습니다.
English
We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video) generation. We tackle this problem differently by formulating the task as an image translation problem steered by text and motion magnitude prompts, as shown in teaser fig. To ensure that the model adheres to motion guidance, we propose a new motion-guided warping module to spatially transform the features of the source image conditioned on the two types of prompts. Furthermore, we introduce a perceptual loss to ensure the transformed feature map remains within the same space as the target image, ensuring content consistency and coherence. In preparation for the model training, we meticulously curated data by extracting coherent image frames from the TGIF video-caption dataset, which provides rich information about the temporal changes of subjects. After pretraining, we apply our model in a zero-shot manner to a number of video datasets. Extensive qualitative and quantitative experiments demonstrate the effectiveness of our model -- it not only captures the semantic prompt from text but also the spatial ones from motion guidance. We train all our models using a single node of 16xV100 GPUs. Code, dataset and models are made public at: https://hiteshk03.github.io/Pix2Gif/.
PDF181December 15, 2024