Verschachtelte Aufmerksamkeit: Semantikbewusste Aufmerksamkeitswerte für die Personalisierung von Konzepten
Nested Attention: Semantic-aware Attention Values for Concept Personalization
January 2, 2025
Autoren: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
Zusammenfassung
Die Personalisierung von Text-zu-Bild-Modellen zur Generierung von Bildern spezifischer Motive in verschiedenen Szenen und Stilen ist ein sich schnell entwickelndes Feld. Aktuelle Ansätze stehen oft vor Herausforderungen, um ein Gleichgewicht zwischen Identitätserhaltung und Ausrichtung auf den Eingabetext zu wahren. Einige Methoden verwenden ein einzelnes textuelles Token zur Darstellung eines Motivs, was die Ausdruckskraft einschränkt, während andere reichhaltigere Darstellungen nutzen, jedoch die Ausrichtung auf den Eingabetext beeinträchtigen. In dieser Arbeit stellen wir Nested Attention vor, einen neuartigen Mechanismus, der eine reichhaltige und ausdrucksstarke Bildrepräsentation in die bestehenden Kreuz-Aufmerksamkeitsschichten des Modells einfügt. Unsere Schlüsselidee besteht darin, abfrageabhängige Motivwerte zu generieren, die aus verschachtelten Aufmerksamkeitsschichten abgeleitet sind und lernen, relevante Motivmerkmale für jede Region im generierten Bild auszuwählen. Wir integrieren diese verschachtelten Schichten in eine personalisierte Methode auf Basis eines Encoders und zeigen, dass sie eine hohe Identitätserhaltung ermöglichen, während sie sich an die Eingabetexte halten. Unser Ansatz ist allgemein und kann in verschiedenen Bereichen trainiert werden. Darüber hinaus ermöglicht uns ihr vorheriger Erhalt, mehrere personalisierte Motive aus verschiedenen Bereichen in einem einzigen Bild zu kombinieren.
English
Personalizing text-to-image models to generate images of specific subjects
across diverse scenes and styles is a rapidly advancing field. Current
approaches often face challenges in maintaining a balance between identity
preservation and alignment with the input text prompt. Some methods rely on a
single textual token to represent a subject, which limits expressiveness, while
others employ richer representations but disrupt the model's prior, diminishing
prompt alignment. In this work, we introduce Nested Attention, a novel
mechanism that injects a rich and expressive image representation into the
model's existing cross-attention layers. Our key idea is to generate
query-dependent subject values, derived from nested attention layers that learn
to select relevant subject features for each region in the generated image. We
integrate these nested layers into an encoder-based personalization method, and
show that they enable high identity preservation while adhering to input text
prompts. Our approach is general and can be trained on various domains.
Additionally, its prior preservation allows us to combine multiple personalized
subjects from different domains in a single image.Summary
AI-Generated Summary