StoryDiffusion: Согласованное самовнимание для генерации изображений и видео на длинные дистанции
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
May 2, 2024
Авторы: Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou
cs.AI
Аннотация
Для недавно разработанных генеративных моделей на основе диффузии поддержание согласованного контента в серии сгенерированных изображений, особенно содержащих объекты и сложные детали, представляет существенное испытание. В данной статье мы предлагаем новый способ вычисления самовнимания, названный Согласованным Самовниманием, который значительно повышает согласованность между сгенерированными изображениями и усиливает распространенные предварительно обученные модели текст-к-изображению на основе диффузии в нулевом режиме. Для расширения нашего метода на генерацию видео большого диапазона, мы дополнительно вводим новый модуль прогнозирования временного движения в семантическом пространстве, названный Семантическим Предсказателем Движения. Он обучен оценивать условия движения между двумя предоставленными изображениями в семантических пространствах. Этот модуль преобразует сгенерированную последовательность изображений в видео с плавными переходами и согласованными объектами, которые значительно более стабильны, чем модули, основанные только на скрытых пространствах, особенно в контексте генерации длинных видео. Объединив эти два новаторских компонента, наша структура, названная StoryDiffusion, может описывать историю на основе текста с согласованными изображениями или видео, охватывающими богатое разнообразие содержания. Предложенный StoryDiffusion включает в себя первооткрывательные исследования в области генерации визуальных историй с представлением изображений и видео, что, надеемся, может вдохновить на проведение дальнейших исследований с точки зрения архитектурных модификаций. Наш код доступен публично по ссылке https://github.com/HVision-NKU/StoryDiffusion.
English
For recent diffusion-based generative models, maintaining consistent content
across a series of generated images, especially those containing subjects and
complex details, presents a significant challenge. In this paper, we propose a
new way of self-attention calculation, termed Consistent Self-Attention, that
significantly boosts the consistency between the generated images and augments
prevalent pretrained diffusion-based text-to-image models in a zero-shot
manner. To extend our method to long-range video generation, we further
introduce a novel semantic space temporal motion prediction module, named
Semantic Motion Predictor. It is trained to estimate the motion conditions
between two provided images in the semantic spaces. This module converts the
generated sequence of images into videos with smooth transitions and consistent
subjects that are significantly more stable than the modules based on latent
spaces only, especially in the context of long video generation. By merging
these two novel components, our framework, referred to as StoryDiffusion, can
describe a text-based story with consistent images or videos encompassing a
rich variety of contents. The proposed StoryDiffusion encompasses pioneering
explorations in visual story generation with the presentation of images and
videos, which we hope could inspire more research from the aspect of
architectural modifications. Our code is made publicly available at
https://github.com/HVision-NKU/StoryDiffusion.Summary
AI-Generated Summary