Attention imbriquée : Valeurs d'attention conscientes de la sémantique pour la personnalisation de concepts
Nested Attention: Semantic-aware Attention Values for Concept Personalization
January 2, 2025
Auteurs: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
Résumé
La personnalisation des modèles texte-image pour générer des images de sujets spécifiques à travers des scènes et styles divers est un domaine en évolution rapide. Les approches actuelles sont souvent confrontées à des défis pour maintenir un équilibre entre la préservation de l'identité et l'alignement avec la consigne textuelle d'entrée. Certains méthodes se basent sur un seul jeton textuel pour représenter un sujet, ce qui limite l'expressivité, tandis que d'autres utilisent des représentations plus riches mais perturbent le modèle précédent, réduisant l'alignement avec la consigne. Dans ce travail, nous introduisons l'Attention Emboîtée, un mécanisme novateur qui injecte une représentation d'image riche et expressive dans les couches d'attention croisée existantes du modèle. Notre idée clé est de générer des valeurs de sujet dépendantes de la requête, dérivées des couches d'attention emboîtées qui apprennent à sélectionner les caractéristiques de sujet pertinentes pour chaque région de l'image générée. Nous intégrons ces couches emboîtées dans une méthode de personnalisation basée sur un encodeur, et montrons qu'elles permettent une forte préservation de l'identité tout en respectant les consignes textuelles d'entrée. Notre approche est générale et peut être entraînée sur divers domaines. De plus, sa préservation antérieure nous permet de combiner plusieurs sujets personnalisés de différents domaines dans une seule image.
English
Personalizing text-to-image models to generate images of specific subjects
across diverse scenes and styles is a rapidly advancing field. Current
approaches often face challenges in maintaining a balance between identity
preservation and alignment with the input text prompt. Some methods rely on a
single textual token to represent a subject, which limits expressiveness, while
others employ richer representations but disrupt the model's prior, diminishing
prompt alignment. In this work, we introduce Nested Attention, a novel
mechanism that injects a rich and expressive image representation into the
model's existing cross-attention layers. Our key idea is to generate
query-dependent subject values, derived from nested attention layers that learn
to select relevant subject features for each region in the generated image. We
integrate these nested layers into an encoder-based personalization method, and
show that they enable high identity preservation while adhering to input text
prompts. Our approach is general and can be trained on various domains.
Additionally, its prior preservation allows us to combine multiple personalized
subjects from different domains in a single image.Summary
AI-Generated Summary