StoryDiffusion: Konsistente Selbst-Aufmerksamkeit für die Generierung von Bildern und Videos über große Distanzen
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
May 2, 2024
Autoren: Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou
cs.AI
Zusammenfassung
Für aktuelle diffusionsbasierte generative Modelle stellt die Aufrechterhaltung konsistenter Inhalte über eine Reihe von generierten Bildern, insbesondere solche mit Motiven und komplexen Details, eine bedeutende Herausforderung dar. In diesem Paper schlagen wir eine neue Methode zur Selbst-Aufmerksamkeitsberechnung vor, die als Konsistente Selbst-Aufmerksamkeit bezeichnet wird und die Konsistenz zwischen den generierten Bildern signifikant verbessert und gängige vortrainierte diffusionsbasierte Text-zu-Bild-Modelle auf Null-Shot-Weise erweitert. Um unsere Methode auf die Langstrecken-Videoerzeugung auszudehnen, führen wir zusätzlich ein neuartiges semantisches Raum-Zeit-Bewegungsvorhersagemodul ein, das als Semantischer Bewegungsvorhersager bezeichnet wird. Es wird trainiert, um die Bewegungsbedingungen zwischen zwei bereitgestellten Bildern in den semantischen Räumen zu schätzen. Dieses Modul wandelt die generierte Sequenz von Bildern in Videos mit sanften Übergängen und konsistenten Motiven um, die signifikant stabiler sind als Module, die nur auf latenten Räumen basieren, insbesondere im Kontext der Langvideoerzeugung. Durch die Fusion dieser beiden neuartigen Komponenten kann unser Framework, das als StoryDiffusion bezeichnet wird, eine textbasierte Geschichte mit konsistenten Bildern oder Videos beschreiben, die eine Vielzahl von Inhalten umfassen. Die vorgeschlagene StoryDiffusion umfasst bahnbrechende Erkundungen in der visuellen Geschichtenerzeugung mit der Präsentation von Bildern und Videos, die hoffentlich mehr Forschung aus dem Aspekt der architektonischen Modifikationen inspirieren können. Unser Code ist öffentlich unter https://github.com/HVision-NKU/StoryDiffusion verfügbar gemacht.
English
For recent diffusion-based generative models, maintaining consistent content
across a series of generated images, especially those containing subjects and
complex details, presents a significant challenge. In this paper, we propose a
new way of self-attention calculation, termed Consistent Self-Attention, that
significantly boosts the consistency between the generated images and augments
prevalent pretrained diffusion-based text-to-image models in a zero-shot
manner. To extend our method to long-range video generation, we further
introduce a novel semantic space temporal motion prediction module, named
Semantic Motion Predictor. It is trained to estimate the motion conditions
between two provided images in the semantic spaces. This module converts the
generated sequence of images into videos with smooth transitions and consistent
subjects that are significantly more stable than the modules based on latent
spaces only, especially in the context of long video generation. By merging
these two novel components, our framework, referred to as StoryDiffusion, can
describe a text-based story with consistent images or videos encompassing a
rich variety of contents. The proposed StoryDiffusion encompasses pioneering
explorations in visual story generation with the presentation of images and
videos, which we hope could inspire more research from the aspect of
architectural modifications. Our code is made publicly available at
https://github.com/HVision-NKU/StoryDiffusion.Summary
AI-Generated Summary