ChatPaper.aiChatPaper

Pix2Gif: GIF生成のためのモーションガイド拡散モデル

Pix2Gif: Motion-Guided Diffusion for GIF Generation

March 7, 2024
著者: Hitesh Kandala, Jianfeng Gao, Jianwei Yang
cs.AI

要旨

本論文では、画像からGIF(動画)生成のためのモーションガイド拡散モデル「Pix2Gif」を提案します。本課題に対して、テキストとモーション量のプロンプトによって誘導される画像変換問題として定式化するという新たなアプローチを採用しています(ティーザー図参照)。モデルがモーションガイダンスに従うことを保証するため、2種類のプロンプトに基づいてソース画像の特徴を空間的に変換する新しいモーションガイドワーピングモジュールを提案します。さらに、変換された特徴マップがターゲット画像と同じ空間内に留まることを保証する知覚損失を導入し、コンテンツの一貫性と整合性を確保します。モデルトレーニングの準備として、TGIFビデオキャプションデータセットから一貫性のある画像フレームを慎重に抽出し、被写体の時間的変化に関する豊富な情報を提供します。事前学習後、本モデルを複数のビデオデータセットに対してゼロショット方式で適用します。大規模な定性的・定量的実験により、本モデルがテキストからの意味的プロンプトだけでなく、モーションガイダンスからの空間的プロンプトも捉える有効性が実証されています。すべてのモデルは、16台のV100 GPUを搭載した単一ノードを使用してトレーニングされています。コード、データセット、モデルは以下のURLで公開されています:https://hiteshk03.github.io/Pix2Gif/
English
We present Pix2Gif, a motion-guided diffusion model for image-to-GIF (video) generation. We tackle this problem differently by formulating the task as an image translation problem steered by text and motion magnitude prompts, as shown in teaser fig. To ensure that the model adheres to motion guidance, we propose a new motion-guided warping module to spatially transform the features of the source image conditioned on the two types of prompts. Furthermore, we introduce a perceptual loss to ensure the transformed feature map remains within the same space as the target image, ensuring content consistency and coherence. In preparation for the model training, we meticulously curated data by extracting coherent image frames from the TGIF video-caption dataset, which provides rich information about the temporal changes of subjects. After pretraining, we apply our model in a zero-shot manner to a number of video datasets. Extensive qualitative and quantitative experiments demonstrate the effectiveness of our model -- it not only captures the semantic prompt from text but also the spatial ones from motion guidance. We train all our models using a single node of 16xV100 GPUs. Code, dataset and models are made public at: https://hiteshk03.github.io/Pix2Gif/.
PDF181December 15, 2024