Generación de Imágenes Alineadas en Estilo mediante Atención Compartida
Style Aligned Image Generation via Shared Attention
December 4, 2023
Autores: Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or
cs.AI
Resumen
Los modelos de Texto a Imagen (T2I) a gran escala han ganado rápidamente prominencia en campos creativos, generando resultados visualmente atractivos a partir de indicaciones textuales. Sin embargo, controlar estos modelos para garantizar un estilo consistente sigue siendo un desafío, ya que los métodos existentes requieren ajustes finos e intervención manual para separar contenido y estilo. En este artículo, presentamos StyleAligned, una técnica novedosa diseñada para establecer la alineación de estilo en una serie de imágenes generadas. Al emplear un mínimo de "compartición de atención" durante el proceso de difusión, nuestro método mantiene la consistencia de estilo entre las imágenes dentro de los modelos T2I. Este enfoque permite la creación de imágenes con estilo consistente utilizando un estilo de referencia a través de una operación de inversión sencilla. La evaluación de nuestro método en diversos estilos y indicaciones textuales demuestra una síntesis de alta calidad y fidelidad, destacando su eficacia para lograr un estilo consistente en diversas entradas.
English
Large-scale Text-to-Image (T2I) models have rapidly gained prominence across
creative fields, generating visually compelling outputs from textual prompts.
However, controlling these models to ensure consistent style remains
challenging, with existing methods necessitating fine-tuning and manual
intervention to disentangle content and style. In this paper, we introduce
StyleAligned, a novel technique designed to establish style alignment among a
series of generated images. By employing minimal `attention sharing' during the
diffusion process, our method maintains style consistency across images within
T2I models. This approach allows for the creation of style-consistent images
using a reference style through a straightforward inversion operation. Our
method's evaluation across diverse styles and text prompts demonstrates
high-quality synthesis and fidelity, underscoring its efficacy in achieving
consistent style across various inputs.