ChatPaper.aiChatPaper

Geneste Aandacht: Semantisch-bewuste Aandachtswaarden voor Conceptpersonalisatie

Nested Attention: Semantic-aware Attention Values for Concept Personalization

January 2, 2025
Auteurs: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI

Samenvatting

Het personaliseren van tekst-naar-afbeelding modellen om afbeeldingen van specifieke onderwerpen te genereren binnen diverse scènes en stijlen is een zich snel ontwikkelend vakgebied. Huidige benaderingen worden vaak geconfronteerd met uitdagingen bij het handhaven van een balans tussen identiteitsbehoud en afstemming op de invoertekstprompt. Sommige methoden vertrouwen op een enkel tekstueel token om een onderwerp te vertegenwoordigen, wat de expressiviteit beperkt, terwijl andere rijkere representaties gebruiken maar het model's eerdere prompt verstoren, waardoor promptafstemming afneemt. In dit werk introduceren we Nested Attention, een nieuw mechanisme dat een rijke en expressieve afbeeldingsrepresentatie injecteert in de bestaande cross-attention lagen van het model. Ons belangrijkste idee is om op query gebaseerde onderwerpwaarden te genereren, afgeleid van geneste aandachtslagen die leren om relevante onderwerpkenmerken te selecteren voor elk gebied in de gegenereerde afbeelding. We integreren deze geneste lagen in een op encoder gebaseerde personalisatiemethode, en tonen aan dat ze een hoge identiteitsbehoud mogelijk maken terwijl ze zich houden aan de invoertekstprompt. Onze benadering is algemeen en kan worden getraind op verschillende domeinen. Bovendien maakt de voorafgaande behoud ons in staat om meerdere gepersonaliseerde onderwerpen uit verschillende domeinen te combineren in één afbeelding.
English
Personalizing text-to-image models to generate images of specific subjects across diverse scenes and styles is a rapidly advancing field. Current approaches often face challenges in maintaining a balance between identity preservation and alignment with the input text prompt. Some methods rely on a single textual token to represent a subject, which limits expressiveness, while others employ richer representations but disrupt the model's prior, diminishing prompt alignment. In this work, we introduce Nested Attention, a novel mechanism that injects a rich and expressive image representation into the model's existing cross-attention layers. Our key idea is to generate query-dependent subject values, derived from nested attention layers that learn to select relevant subject features for each region in the generated image. We integrate these nested layers into an encoder-based personalization method, and show that they enable high identity preservation while adhering to input text prompts. Our approach is general and can be trained on various domains. Additionally, its prior preservation allows us to combine multiple personalized subjects from different domains in a single image.

Summary

AI-Generated Summary

PDF112January 3, 2025