Génération d'images alignées de style via une attention partagée
Style Aligned Image Generation via Shared Attention
December 4, 2023
Auteurs: Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or
cs.AI
Résumé
Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) à grande échelle ont rapidement gagné en importance dans les domaines créatifs, produisant des résultats visuellement convaincants à partir de descriptions textuelles. Cependant, contrôler ces modèles pour garantir une cohérence stylistique reste un défi, les méthodes existantes nécessitant un ajustement fin et une intervention manuelle pour dissocier le contenu et le style. Dans cet article, nous présentons StyleAligned, une nouvelle technique conçue pour établir un alignement stylistique parmi une série d'images générées. En utilisant un partage minimal de l'attention pendant le processus de diffusion, notre méthode maintient une cohérence stylistique entre les images au sein des modèles T2I. Cette approche permet la création d'images stylistiquement cohérentes en utilisant un style de référence grâce à une opération d'inversion simple. L'évaluation de notre méthode sur divers styles et descriptions textuelles démontre une synthèse de haute qualité et une fidélité accrue, soulignant son efficacité pour atteindre une cohérence stylistique sur des entrées variées.
English
Large-scale Text-to-Image (T2I) models have rapidly gained prominence across
creative fields, generating visually compelling outputs from textual prompts.
However, controlling these models to ensure consistent style remains
challenging, with existing methods necessitating fine-tuning and manual
intervention to disentangle content and style. In this paper, we introduce
StyleAligned, a novel technique designed to establish style alignment among a
series of generated images. By employing minimal `attention sharing' during the
diffusion process, our method maintains style consistency across images within
T2I models. This approach allows for the creation of style-consistent images
using a reference style through a straightforward inversion operation. Our
method's evaluation across diverse styles and text prompts demonstrates
high-quality synthesis and fidelity, underscoring its efficacy in achieving
consistent style across various inputs.