Atención Anidada: Valores de Atención Conscientes de la Semántica para la Personalización de Conceptos
Nested Attention: Semantic-aware Attention Values for Concept Personalization
January 2, 2025
Autores: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
Resumen
Personalizar modelos de texto a imagen para generar imágenes de sujetos específicos en escenas y estilos diversos es un campo en constante avance. Los enfoques actuales a menudo enfrentan desafíos para mantener un equilibrio entre la preservación de la identidad y la alineación con la entrada de texto. Algunos métodos se basan en un único token textual para representar un sujeto, lo que limita la expresividad, mientras que otros emplean representaciones más ricas pero pueden afectar la alineación con la entrada de texto. En este trabajo, presentamos Atención Anidada, un mecanismo novedoso que inyecta una representación de imagen rica y expresiva en las capas de atención cruzada existentes del modelo. Nuestra idea clave es generar valores de sujeto dependientes de la consulta, derivados de capas de atención anidadas que aprenden a seleccionar características relevantes del sujeto para cada región en la imagen generada. Integrando estas capas anidadas en un método de personalización basado en un codificador, demostramos que permiten una alta preservación de la identidad al mismo tiempo que se adhieren a las entradas de texto. Nuestro enfoque es general y puede ser entrenado en diversos dominios. Además, su preservación previa nos permite combinar múltiples sujetos personalizados de diferentes dominios en una sola imagen.
English
Personalizing text-to-image models to generate images of specific subjects
across diverse scenes and styles is a rapidly advancing field. Current
approaches often face challenges in maintaining a balance between identity
preservation and alignment with the input text prompt. Some methods rely on a
single textual token to represent a subject, which limits expressiveness, while
others employ richer representations but disrupt the model's prior, diminishing
prompt alignment. In this work, we introduce Nested Attention, a novel
mechanism that injects a rich and expressive image representation into the
model's existing cross-attention layers. Our key idea is to generate
query-dependent subject values, derived from nested attention layers that learn
to select relevant subject features for each region in the generated image. We
integrate these nested layers into an encoder-based personalization method, and
show that they enable high identity preservation while adhering to input text
prompts. Our approach is general and can be trained on various domains.
Additionally, its prior preservation allows us to combine multiple personalized
subjects from different domains in a single image.Summary
AI-Generated Summary