StoryDiffusion:長距離画像・動画生成のための一貫性自己注意機構
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
May 2, 2024
著者: Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou
cs.AI
要旨
近年の拡散モデルに基づく生成モデルにおいて、一連の生成画像間で内容の一貫性を維持すること、特に被写体や複雑な詳細を含む場合には、大きな課題となっています。本論文では、新たなセルフアテンション計算手法「Consistent Self-Attention」を提案します。この手法は、生成画像間の一貫性を大幅に向上させ、広く利用されている事前学習済み拡散ベースのテキスト画像生成モデルをゼロショット方式で強化します。
長尺の動画生成へ本手法を拡張するため、さらに新しい意味空間における時間的モーション予測モジュール「Semantic Motion Predictor」を導入します。このモジュールは、2枚の入力画像間のモーション条件を意味空間で推定するように訓練されており、生成された一連の画像を、滑らかな遷移と一貫した被写体を持つ動画に変換します。特に長尺動画生成において、潜在空間のみに基づくモジュールよりも大幅に安定した結果を得られます。
これら二つの新規コンポーネントを統合した我々のフレームワーク「StoryDiffusion」は、テキストベースのストーリーを、多様な内容を含む一貫性のある画像や動画で表現することが可能です。提案するStoryDiffusionは、画像と動画による視覚的ストーリー生成における先駆的な探求を含んでおり、アーキテクチャ変更の観点からさらなる研究を促進することを期待します。コードはhttps://github.com/HVision-NKU/StoryDiffusion で公開しています。
English
For recent diffusion-based generative models, maintaining consistent content
across a series of generated images, especially those containing subjects and
complex details, presents a significant challenge. In this paper, we propose a
new way of self-attention calculation, termed Consistent Self-Attention, that
significantly boosts the consistency between the generated images and augments
prevalent pretrained diffusion-based text-to-image models in a zero-shot
manner. To extend our method to long-range video generation, we further
introduce a novel semantic space temporal motion prediction module, named
Semantic Motion Predictor. It is trained to estimate the motion conditions
between two provided images in the semantic spaces. This module converts the
generated sequence of images into videos with smooth transitions and consistent
subjects that are significantly more stable than the modules based on latent
spaces only, especially in the context of long video generation. By merging
these two novel components, our framework, referred to as StoryDiffusion, can
describe a text-based story with consistent images or videos encompassing a
rich variety of contents. The proposed StoryDiffusion encompasses pioneering
explorations in visual story generation with the presentation of images and
videos, which we hope could inspire more research from the aspect of
architectural modifications. Our code is made publicly available at
https://github.com/HVision-NKU/StoryDiffusion.