Wees Jezelf: Beperkte Aandacht voor Multi-Subject Tekst-naar-Beeld Generatie
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation
March 25, 2024
Auteurs: Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or
cs.AI
Samenvatting
Text-to-image diffusiemodellen beschikken over een ongekend vermogen om diverse en hoogwaardige afbeeldingen te genereren. Ze hebben echter vaak moeite om de beoogde semantiek van complexe invoerprompts die meerdere onderwerpen bevatten, nauwkeurig vast te leggen. Onlangs zijn er talrijke layout-to-image-extensies geïntroduceerd om de gebruikerscontrole te verbeteren, met als doel onderwerpen die door specifieke tokens worden vertegenwoordigd te lokaliseren. Toch produceren deze methoden vaak semantisch onnauwkeurige afbeeldingen, vooral wanneer ze te maken hebben met meerdere semantisch of visueel vergelijkbare onderwerpen. In dit werk bestuderen en analyseren we de oorzaken van deze beperkingen. Onze verkenning toont aan dat het primaire probleem voortkomt uit onbedoelde semantische lekkage tussen onderwerpen tijdens het denoisingsproces. Deze lekkage wordt toegeschreven aan de aandachtslagen van het diffusiemodel, die de neiging hebben om de visuele kenmerken van verschillende onderwerpen te vermengen. Om deze problemen aan te pakken, introduceren we Bounded Attention, een trainingsvrije methode om de informatiestroom in het samplingproces te begrenzen. Bounded Attention voorkomt schadelijke lekkage tussen onderwerpen en maakt het mogelijk de generatie te sturen om de individualiteit van elk onderwerp te bevorderen, zelfs bij complexe multi-subjectconditionering. Door uitgebreide experimenten tonen we aan dat onze methode de generatie van meerdere onderwerpen mogelijk maakt die beter aansluiten bij gegeven prompts en lay-outs.
English
Text-to-image diffusion models have an unprecedented ability to generate
diverse and high-quality images. However, they often struggle to faithfully
capture the intended semantics of complex input prompts that include multiple
subjects. Recently, numerous layout-to-image extensions have been introduced to
improve user control, aiming to localize subjects represented by specific
tokens. Yet, these methods often produce semantically inaccurate images,
especially when dealing with multiple semantically or visually similar
subjects. In this work, we study and analyze the causes of these limitations.
Our exploration reveals that the primary issue stems from inadvertent semantic
leakage between subjects in the denoising process. This leakage is attributed
to the diffusion model's attention layers, which tend to blend the visual
features of different subjects. To address these issues, we introduce Bounded
Attention, a training-free method for bounding the information flow in the
sampling process. Bounded Attention prevents detrimental leakage among subjects
and enables guiding the generation to promote each subject's individuality,
even with complex multi-subject conditioning. Through extensive
experimentation, we demonstrate that our method empowers the generation of
multiple subjects that better align with given prompts and layouts.