Verschachtelte Aufmerksamkeit: Semantikbewusste Aufmerksamkeitswerte für die Personalisierung von Konzepten

papers.abstract

Die Personalisierung von Text-zu-Bild-Modellen zur Generierung von Bildern spezifischer Motive in verschiedenen Szenen und Stilen ist ein sich schnell entwickelndes Feld. Aktuelle Ansätze stehen oft vor Herausforderungen, um ein Gleichgewicht zwischen Identitätserhaltung und Ausrichtung auf den Eingabetext zu wahren. Einige Methoden verwenden ein einzelnes textuelles Token zur Darstellung eines Motivs, was die Ausdruckskraft einschränkt, während andere reichhaltigere Darstellungen nutzen, jedoch die Ausrichtung auf den Eingabetext beeinträchtigen. In dieser Arbeit stellen wir Nested Attention vor, einen neuartigen Mechanismus, der eine reichhaltige und ausdrucksstarke Bildrepräsentation in die bestehenden Kreuz-Aufmerksamkeitsschichten des Modells einfügt. Unsere Schlüsselidee besteht darin, abfrageabhängige Motivwerte zu generieren, die aus verschachtelten Aufmerksamkeitsschichten abgeleitet sind und lernen, relevante Motivmerkmale für jede Region im generierten Bild auszuwählen. Wir integrieren diese verschachtelten Schichten in eine personalisierte Methode auf Basis eines Encoders und zeigen, dass sie eine hohe Identitätserhaltung ermöglichen, während sie sich an die Eingabetexte halten. Unser Ansatz ist allgemein und kann in verschiedenen Bereichen trainiert werden. Darüber hinaus ermöglicht uns ihr vorheriger Erhalt, mehrere personalisierte Motive aus verschiedenen Bereichen in einem einzigen Bild zu kombinieren.

English

Personalizing text-to-image models to generate images of specific subjects across diverse scenes and styles is a rapidly advancing field. Current approaches often face challenges in maintaining a balance between identity preservation and alignment with the input text prompt. Some methods rely on a single textual token to represent a subject, which limits expressiveness, while others employ richer representations but disrupt the model's prior, diminishing prompt alignment. In this work, we introduce Nested Attention, a novel mechanism that injects a rich and expressive image representation into the model's existing cross-attention layers. Our key idea is to generate query-dependent subject values, derived from nested attention layers that learn to select relevant subject features for each region in the generated image. We integrate these nested layers into an encoder-based personalization method, and show that they enable high identity preservation while adhering to input text prompts. Our approach is general and can be trained on various domains. Additionally, its prior preservation allows us to combine multiple personalized subjects from different domains in a single image.

Verschachtelte Aufmerksamkeit: Semantikbewusste Aufmerksamkeitswerte für die Personalisierung von Konzepten

Nested Attention: Semantic-aware Attention Values for Concept Personalization

papers.abstract

Support