Вложенное внимание: семантически осознанные значения внимания для персонализации концепций.
Nested Attention: Semantic-aware Attention Values for Concept Personalization
January 2, 2025
Авторы: Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
Аннотация
Персонализация моделей текст-к-изображению для создания изображений конкретных объектов в различных сценах и стилях является быстро развивающейся областью. Существующие подходы часто сталкиваются с проблемами балансировки между сохранением идентичности и соответствием входному текстовому запросу. Некоторые методы полагаются на одиночный текстовый токен для представления объекта, что ограничивает выразительность, в то время как другие используют более богатые представления, но нарушают предыдущую модель, уменьшая соответствие запросу. В данной работе мы представляем Многоуровневое Внимание, новый механизм, который внедряет богатое и выразительное изображение в существующие слои кросс-внимания модели. Наш ключевой идеей является генерация зависящих от запроса значений объекта, происходящих из многоуровневых слоев внимания, которые учатся выбирать соответствующие характеристики объекта для каждой области в созданном изображении. Мы интегрируем эти многоуровневые слои в метод персонализации на основе кодировщика и показываем, что они обеспечивают высокое сохранение идентичности, придерживаясь входных текстовых запросов. Наш подход универсален и может быть обучен в различных областях. Кроме того, его предыдущее сохранение позволяет нам объединять несколько персонализированных объектов из разных областей в одном изображении.
English
Personalizing text-to-image models to generate images of specific subjects
across diverse scenes and styles is a rapidly advancing field. Current
approaches often face challenges in maintaining a balance between identity
preservation and alignment with the input text prompt. Some methods rely on a
single textual token to represent a subject, which limits expressiveness, while
others employ richer representations but disrupt the model's prior, diminishing
prompt alignment. In this work, we introduce Nested Attention, a novel
mechanism that injects a rich and expressive image representation into the
model's existing cross-attention layers. Our key idea is to generate
query-dependent subject values, derived from nested attention layers that learn
to select relevant subject features for each region in the generated image. We
integrate these nested layers into an encoder-based personalization method, and
show that they enable high identity preservation while adhering to input text
prompts. Our approach is general and can be trained on various domains.
Additionally, its prior preservation allows us to combine multiple personalized
subjects from different domains in a single image.Summary
AI-Generated Summary