StoryDiffusion : Attention personnelle cohérente pour la génération d'images et de vidéos à longue portée

papers.abstract

Pour les modèles génératifs récents basés sur la diffusion, maintenir une cohérence de contenu à travers une série d'images générées, en particulier celles contenant des sujets et des détails complexes, représente un défi majeur. Dans cet article, nous proposons une nouvelle méthode de calcul d'auto-attention, appelée Auto-Attention Cohérente, qui améliore significativement la cohérence entre les images générées et enrichit les modèles pré-entraînés de génération d'images à partir de texte basés sur la diffusion, de manière zero-shot. Pour étendre notre méthode à la génération de vidéos longues, nous introduisons en outre un module novateur de prédiction de mouvement temporel dans l'espace sémantique, nommé Prédicteur de Mouvement Sémantique. Ce module est entraîné à estimer les conditions de mouvement entre deux images fournies dans les espaces sémantiques. Il convertit la séquence d'images générées en vidéos avec des transitions fluides et des sujets cohérents, offrant une stabilité bien supérieure aux modules basés uniquement sur les espaces latents, en particulier dans le contexte de la génération de vidéos longues. En combinant ces deux composants novateurs, notre framework, appelé StoryDiffusion, peut décrire une histoire basée sur du texte avec des images ou des vidéos cohérentes englobant une grande variété de contenus. Le StoryDiffusion proposé englobe des explorations pionnières dans la génération d'histoires visuelles avec la présentation d'images et de vidéos, ce qui, nous l'espérons, pourrait inspirer davantage de recherches du point de vue des modifications architecturales. Notre code est rendu public à l'adresse suivante : https://github.com/HVision-NKU/StoryDiffusion.

English

For recent diffusion-based generative models, maintaining consistent content across a series of generated images, especially those containing subjects and complex details, presents a significant challenge. In this paper, we propose a new way of self-attention calculation, termed Consistent Self-Attention, that significantly boosts the consistency between the generated images and augments prevalent pretrained diffusion-based text-to-image models in a zero-shot manner. To extend our method to long-range video generation, we further introduce a novel semantic space temporal motion prediction module, named Semantic Motion Predictor. It is trained to estimate the motion conditions between two provided images in the semantic spaces. This module converts the generated sequence of images into videos with smooth transitions and consistent subjects that are significantly more stable than the modules based on latent spaces only, especially in the context of long video generation. By merging these two novel components, our framework, referred to as StoryDiffusion, can describe a text-based story with consistent images or videos encompassing a rich variety of contents. The proposed StoryDiffusion encompasses pioneering explorations in visual story generation with the presentation of images and videos, which we hope could inspire more research from the aspect of architectural modifications. Our code is made publicly available at https://github.com/HVision-NKU/StoryDiffusion.

StoryDiffusion : Attention personnelle cohérente pour la génération d'images et de vidéos à longue portée

StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation

papers.abstract

Support