StoryDiffusion: Atención Autoconsistente para la Generación de Imágenes y Videos de Largo Alcance
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation
May 2, 2024
Autores: Yupeng Zhou, Daquan Zhou, Ming-Ming Cheng, Jiashi Feng, Qibin Hou
cs.AI
Resumen
Para los modelos generativos recientes basados en difusión, mantener contenido consistente en una serie de imágenes generadas, especialmente aquellas que contienen sujetos y detalles complejos, representa un desafío significativo. En este artículo, proponemos una nueva forma de cálculo de autoatención, denominada Autoatención Consistente, que mejora considerablemente la coherencia entre las imágenes generadas y potencia los modelos preentrenados predominantes de texto a imagen basados en difusión de manera zero-shot. Para extender nuestro método a la generación de videos de largo alcance, introducimos además un nuevo módulo de predicción de movimiento temporal en el espacio semántico, llamado Predictor de Movimiento Semántico. Este módulo está entrenado para estimar las condiciones de movimiento entre dos imágenes proporcionadas en los espacios semánticos. Convierte la secuencia generada de imágenes en videos con transiciones suaves y sujetos consistentes que son significativamente más estables que los módulos basados únicamente en espacios latentes, especialmente en el contexto de la generación de videos largos. Al combinar estos dos componentes novedosos, nuestro marco, denominado StoryDiffusion, puede describir una historia basada en texto con imágenes o videos consistentes que abarcan una amplia variedad de contenidos. El StoryDiffusion propuesto abarca exploraciones pioneras en la generación de historias visuales con la presentación de imágenes y videos, lo que esperamos pueda inspirar más investigaciones desde el aspecto de las modificaciones arquitectónicas. Nuestro código está disponible públicamente en https://github.com/HVision-NKU/StoryDiffusion.
English
For recent diffusion-based generative models, maintaining consistent content
across a series of generated images, especially those containing subjects and
complex details, presents a significant challenge. In this paper, we propose a
new way of self-attention calculation, termed Consistent Self-Attention, that
significantly boosts the consistency between the generated images and augments
prevalent pretrained diffusion-based text-to-image models in a zero-shot
manner. To extend our method to long-range video generation, we further
introduce a novel semantic space temporal motion prediction module, named
Semantic Motion Predictor. It is trained to estimate the motion conditions
between two provided images in the semantic spaces. This module converts the
generated sequence of images into videos with smooth transitions and consistent
subjects that are significantly more stable than the modules based on latent
spaces only, especially in the context of long video generation. By merging
these two novel components, our framework, referred to as StoryDiffusion, can
describe a text-based story with consistent images or videos encompassing a
rich variety of contents. The proposed StoryDiffusion encompasses pioneering
explorations in visual story generation with the presentation of images and
videos, which we hope could inspire more research from the aspect of
architectural modifications. Our code is made publicly available at
https://github.com/HVision-NKU/StoryDiffusion.Summary
AI-Generated Summary