Sei du selbst: Begrenzte Aufmerksamkeit für die Text-zu-Bild-Generierung mit mehreren Themen
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation
March 25, 2024
Autoren: Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or
cs.AI
Zusammenfassung
Text-zu-Bild-Diffusionsmodelle haben eine beispiellose Fähigkeit, vielfältige und hochwertige Bilder zu generieren. Allerdings haben sie oft Schwierigkeiten, die beabsichtigte Semantik komplexer Eingabeaufforderungen, die mehrere Themen umfassen, treu wiederzugeben. In letzter Zeit wurden zahlreiche Layout-zu-Bild-Erweiterungen eingeführt, um die Benutzerkontrolle zu verbessern und darauf abzuzielen, Themen, die durch spezifische Token repräsentiert sind, zu lokalisieren. Dennoch erzeugen diese Methoden oft semantisch ungenaue Bilder, insbesondere bei der Bearbeitung mehrerer semantisch oder visuell ähnlicher Themen. In dieser Arbeit untersuchen und analysieren wir die Ursachen dieser Einschränkungen. Unsere Untersuchung zeigt, dass das Hauptproblem aus unbeabsichtigtem semantischem Austreten zwischen Themen im Rauschunterdrückungsprozess resultiert. Dieses Austreten wird den Aufmerksamkeitsschichten des Diffusionsmodells zugeschrieben, die dazu neigen, die visuellen Merkmale verschiedener Themen zu vermischen. Um diese Probleme anzugehen, führen wir Begrenzte Aufmerksamkeit ein, eine trainingsfreie Methode zur Begrenzung des Informationsflusses im Abtastprozess. Begrenzte Aufmerksamkeit verhindert schädliches Austreten zwischen Themen und ermöglicht es, die Generierung so zu lenken, dass die Individualität jedes Themas gefördert wird, selbst bei komplexer Multi-Themen-Konditionierung. Durch umfangreiche Experimente zeigen wir, dass unsere Methode die Generierung mehrerer Themen verbessert, die besser mit den gegebenen Aufforderungen und Layouts übereinstimmen.
English
Text-to-image diffusion models have an unprecedented ability to generate
diverse and high-quality images. However, they often struggle to faithfully
capture the intended semantics of complex input prompts that include multiple
subjects. Recently, numerous layout-to-image extensions have been introduced to
improve user control, aiming to localize subjects represented by specific
tokens. Yet, these methods often produce semantically inaccurate images,
especially when dealing with multiple semantically or visually similar
subjects. In this work, we study and analyze the causes of these limitations.
Our exploration reveals that the primary issue stems from inadvertent semantic
leakage between subjects in the denoising process. This leakage is attributed
to the diffusion model's attention layers, which tend to blend the visual
features of different subjects. To address these issues, we introduce Bounded
Attention, a training-free method for bounding the information flow in the
sampling process. Bounded Attention prevents detrimental leakage among subjects
and enables guiding the generation to promote each subject's individuality,
even with complex multi-subject conditioning. Through extensive
experimentation, we demonstrate that our method empowers the generation of
multiple subjects that better align with given prompts and layouts.Summary
AI-Generated Summary