Geração de Imagens Alinhadas ao Estilo via Atenção Compartilhada
Style Aligned Image Generation via Shared Attention
December 4, 2023
Autores: Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or
cs.AI
Resumo
Modelos de Texto para Imagem (T2I) em larga escala rapidamente ganharam destaque em campos criativos, gerando resultados visualmente impressionantes a partir de prompts textuais. No entanto, controlar esses modelos para garantir um estilo consistente continua sendo um desafio, com métodos existentes exigindo ajustes finos e intervenção manual para separar conteúdo e estilo. Neste artigo, apresentamos o StyleAligned, uma técnica inovadora projetada para estabelecer alinhamento de estilo entre uma série de imagens geradas. Ao empregar um mínimo de "compartilhamento de atenção" durante o processo de difusão, nosso método mantém a consistência de estilo entre as imagens dentro dos modelos T2I. Essa abordagem permite a criação de imagens com estilo consistente usando um estilo de referência por meio de uma operação simples de inversão. A avaliação do nosso método em diversos estilos e prompts textuais demonstra síntese de alta qualidade e fidelidade, destacando sua eficácia em alcançar um estilo consistente em várias entradas.
English
Large-scale Text-to-Image (T2I) models have rapidly gained prominence across
creative fields, generating visually compelling outputs from textual prompts.
However, controlling these models to ensure consistent style remains
challenging, with existing methods necessitating fine-tuning and manual
intervention to disentangle content and style. In this paper, we introduce
StyleAligned, a novel technique designed to establish style alignment among a
series of generated images. By employing minimal `attention sharing' during the
diffusion process, our method maintains style consistency across images within
T2I models. This approach allows for the creation of style-consistent images
using a reference style through a straightforward inversion operation. Our
method's evaluation across diverse styles and text prompts demonstrates
high-quality synthesis and fidelity, underscoring its efficacy in achieving
consistent style across various inputs.