StoryDiffusion: Autoatenção Consistente para Geração de Imagens e Vídeos de Longo Alcance
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
May 2, 2024
Autores: Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou
cs.AI
Resumo
Para modelos generativos recentes baseados em difusão, manter conteúdo consistente em uma série de imagens geradas, especialmente aquelas que contêm sujeitos e detalhes complexos, representa um desafio significativo. Neste artigo, propomos uma nova forma de cálculo de autoatenção, denominada Autoatenção Consistente, que aumenta consideravelmente a consistência entre as imagens geradas e aprimora modelos pré-treinados predominantes de texto para imagem baseados em difusão de maneira zero-shot. Para estender nosso método à geração de vídeos de longo alcance, introduzimos ainda um novo módulo de previsão de movimento temporal em espaço semântico, chamado Predictor de Movimento Semântico. Ele é treinado para estimar as condições de movimento entre duas imagens fornecidas nos espaços semânticos. Este módulo converte a sequência de imagens geradas em vídeos com transições suaves e sujeitos consistentes que são significativamente mais estáveis do que os módulos baseados apenas em espaços latentes, especialmente no contexto de geração de vídeos longos. Ao combinar esses dois novos componentes, nosso framework, denominado StoryDiffusion, pode descrever uma história baseada em texto com imagens ou vídeos consistentes que abrangem uma rica variedade de conteúdos. O StoryDiffusion proposto engloba explorações pioneiras na geração de histórias visuais com a apresentação de imagens e vídeos, o que esperamos que possa inspirar mais pesquisas no aspecto de modificações arquitetônicas. Nosso código está disponível publicamente em https://github.com/HVision-NKU/StoryDiffusion.
English
For recent diffusion-based generative models, maintaining consistent content
across a series of generated images, especially those containing subjects and
complex details, presents a significant challenge. In this paper, we propose a
new way of self-attention calculation, termed Consistent Self-Attention, that
significantly boosts the consistency between the generated images and augments
prevalent pretrained diffusion-based text-to-image models in a zero-shot
manner. To extend our method to long-range video generation, we further
introduce a novel semantic space temporal motion prediction module, named
Semantic Motion Predictor. It is trained to estimate the motion conditions
between two provided images in the semantic spaces. This module converts the
generated sequence of images into videos with smooth transitions and consistent
subjects that are significantly more stable than the modules based on latent
spaces only, especially in the context of long video generation. By merging
these two novel components, our framework, referred to as StoryDiffusion, can
describe a text-based story with consistent images or videos encompassing a
rich variety of contents. The proposed StoryDiffusion encompasses pioneering
explorations in visual story generation with the presentation of images and
videos, which we hope could inspire more research from the aspect of
architectural modifications. Our code is made publicly available at
https://github.com/HVision-NKU/StoryDiffusion.