ChatPaper.aiChatPaper

Stijlgealigneerde beeldgeneratie via gedeelde aandacht

Style Aligned Image Generation via Shared Attention

December 4, 2023
Auteurs: Amir Hertz, Andrey Voynov, Shlomi Fruchter, Daniel Cohen-Or
cs.AI

Samenvatting

Grootschalige Text-to-Image (T2I) modellen hebben snel aan populariteit gewonnen in creatieve vakgebieden, waarbij ze visueel aantrekkelijke resultaten genereren op basis van tekstuele prompts. Het blijft echter een uitdaging om deze modellen te beheersen om een consistente stijl te garanderen, waarbij bestaande methoden fine-tuning en handmatige interventie vereisen om inhoud en stijl te ontwarren. In dit artikel introduceren we StyleAligned, een nieuwe techniek die is ontworpen om stijlaanpassing te realiseren tussen een reeks gegenereerde afbeeldingen. Door minimale `attention sharing' toe te passen tijdens het diffusieproces, handhaaft onze methode stijlconsistentie tussen afbeeldingen binnen T2I-modellen. Deze aanpak maakt het mogelijk om stijlconsistente afbeeldingen te creëren met behulp van een referentiestijl via een eenvoudige inversiebewerking. De evaluatie van onze methode over diverse stijlen en tekstprompts toont hoogwaardige synthese en trouw aan de stijl, wat de effectiviteit ervan onderstreept in het bereiken van een consistente stijl bij verschillende inputs.
English
Large-scale Text-to-Image (T2I) models have rapidly gained prominence across creative fields, generating visually compelling outputs from textual prompts. However, controlling these models to ensure consistent style remains challenging, with existing methods necessitating fine-tuning and manual intervention to disentangle content and style. In this paper, we introduce StyleAligned, a novel technique designed to establish style alignment among a series of generated images. By employing minimal `attention sharing' during the diffusion process, our method maintains style consistency across images within T2I models. This approach allows for the creation of style-consistent images using a reference style through a straightforward inversion operation. Our method's evaluation across diverse styles and text prompts demonstrates high-quality synthesis and fidelity, underscoring its efficacy in achieving consistent style across various inputs.
PDF111February 7, 2026