Generazione di Immagini Allineate allo Stile tramite Attenzione Condivisa

Abstract

I modelli su larga scala di Text-to-Image (T2I) hanno rapidamente acquisito importanza in vari ambiti creativi, generando output visivamente accattivanti a partire da prompt testuali. Tuttavia, controllare questi modelli per garantire uno stile coerente rimane una sfida, con i metodi esistenti che richiedono fine-tuning e interventi manuali per separare contenuto e stile. In questo articolo, introduciamo StyleAligned, una tecnica innovativa progettata per stabilire un allineamento stilistico tra una serie di immagini generate. Utilizzando un minimo di "condivisione dell'attenzione" durante il processo di diffusione, il nostro metodo mantiene la coerenza stilistica tra le immagini all'interno dei modelli T2I. Questo approccio consente la creazione di immagini con stile coerente utilizzando uno stile di riferimento attraverso una semplice operazione di inversione. La valutazione del nostro metodo su una varietà di stili e prompt testuali dimostra una sintesi di alta qualità e fedeltà, evidenziando la sua efficacia nel raggiungere uno stile coerente su vari input.

English

Large-scale Text-to-Image (T2I) models have rapidly gained prominence across creative fields, generating visually compelling outputs from textual prompts. However, controlling these models to ensure consistent style remains challenging, with existing methods necessitating fine-tuning and manual intervention to disentangle content and style. In this paper, we introduce StyleAligned, a novel technique designed to establish style alignment among a series of generated images. By employing minimal `attention sharing' during the diffusion process, our method maintains style consistency across images within T2I models. This approach allows for the creation of style-consistent images using a reference style through a straightforward inversion operation. Our method's evaluation across diverse styles and text prompts demonstrates high-quality synthesis and fidelity, underscoring its efficacy in achieving consistent style across various inputs.

Generazione di Immagini Allineate allo Stile tramite Attenzione Condivisa

Style Aligned Image Generation via Shared Attention

Abstract

Support