Будьте собой: Ограниченное внимание для генерации текста в изображение с учетом нескольких объектов.
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation
March 25, 2024
Авторы: Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or
cs.AI
Аннотация
Модели диффузии текста в изображение обладают невиданной способностью генерировать разнообразные и высококачественные изображения. Однако они часто испытывают затруднения в точном воспроизведении заданной семантики сложных входных запросов, включающих несколько объектов. Недавно было представлено множество расширений от макета к изображению для улучшения контроля пользователя с целью локализации объектов, представленных определенными токенами. Тем не менее, эти методы часто порождают семантически неточные изображения, особенно при работе с несколькими семантически или визуально схожими объектами. В данной работе мы изучаем и анализируем причины этих ограничений. Наше исследование показывает, что основная проблема происходит из непреднамеренного семантического протекания между объектами в процессе удаления шума. Это протекание связано с слоями внимания модели диффузии, которые склонны смешивать визуальные характеристики различных объектов. Для решения этих проблем мы представляем Ограниченное Внимание, метод без обучения для ограничения потока информации в процессе выборки. Ограниченное Внимание предотвращает вредное протекание между объектами и позволяет направлять генерацию для поддержки индивидуальности каждого объекта, даже при сложном мультиобъектном условии. Через обширные эксперименты мы демонстрируем, что наш метод усиливает генерацию нескольких объектов, лучше соответствующих заданным запросам и макетам.
English
Text-to-image diffusion models have an unprecedented ability to generate
diverse and high-quality images. However, they often struggle to faithfully
capture the intended semantics of complex input prompts that include multiple
subjects. Recently, numerous layout-to-image extensions have been introduced to
improve user control, aiming to localize subjects represented by specific
tokens. Yet, these methods often produce semantically inaccurate images,
especially when dealing with multiple semantically or visually similar
subjects. In this work, we study and analyze the causes of these limitations.
Our exploration reveals that the primary issue stems from inadvertent semantic
leakage between subjects in the denoising process. This leakage is attributed
to the diffusion model's attention layers, which tend to blend the visual
features of different subjects. To address these issues, we introduce Bounded
Attention, a training-free method for bounding the information flow in the
sampling process. Bounded Attention prevents detrimental leakage among subjects
and enables guiding the generation to promote each subject's individuality,
even with complex multi-subject conditioning. Through extensive
experimentation, we demonstrate that our method empowers the generation of
multiple subjects that better align with given prompts and layouts.Summary
AI-Generated Summary