Generación de Imágenes Alineadas en Estilo mediante Atención Compartida

Resumen

Los modelos de Texto a Imagen (T2I) a gran escala han ganado rápidamente prominencia en campos creativos, generando resultados visualmente atractivos a partir de indicaciones textuales. Sin embargo, controlar estos modelos para garantizar un estilo consistente sigue siendo un desafío, ya que los métodos existentes requieren ajustes finos e intervención manual para separar contenido y estilo. En este artículo, presentamos StyleAligned, una técnica novedosa diseñada para establecer la alineación de estilo en una serie de imágenes generadas. Al emplear un mínimo de "compartición de atención" durante el proceso de difusión, nuestro método mantiene la consistencia de estilo entre las imágenes dentro de los modelos T2I. Este enfoque permite la creación de imágenes con estilo consistente utilizando un estilo de referencia a través de una operación de inversión sencilla. La evaluación de nuestro método en diversos estilos y indicaciones textuales demuestra una síntesis de alta calidad y fidelidad, destacando su eficacia para lograr un estilo consistente en diversas entradas.

English

Large-scale Text-to-Image (T2I) models have rapidly gained prominence across creative fields, generating visually compelling outputs from textual prompts. However, controlling these models to ensure consistent style remains challenging, with existing methods necessitating fine-tuning and manual intervention to disentangle content and style. In this paper, we introduce StyleAligned, a novel technique designed to establish style alignment among a series of generated images. By employing minimal `attention sharing' during the diffusion process, our method maintains style consistency across images within T2I models. This approach allows for the creation of style-consistent images using a reference style through a straightforward inversion operation. Our method's evaluation across diverse styles and text prompts demonstrates high-quality synthesis and fidelity, underscoring its efficacy in achieving consistent style across various inputs.

Generación de Imágenes Alineadas en Estilo mediante Atención Compartida

Style Aligned Image Generation via Shared Attention

Resumen

Support