ChatPaper.aiChatPaper

Seja Você Mesmo: Atenção Delimitada para Geração de Imagens a partir de Texto com Múltiplos Sujeitos

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

March 25, 2024
Autores: Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or
cs.AI

Resumo

Modelos de difusão de texto para imagem possuem uma capacidade sem precedentes de gerar imagens diversas e de alta qualidade. No entanto, eles frequentemente têm dificuldade em capturar fielmente a semântica pretendida de prompts complexos que incluem múltiplos sujeitos. Recentemente, diversas extensões de layout para imagem foram introduzidas para melhorar o controle do usuário, visando localizar sujeitos representados por tokens específicos. No entanto, esses métodos frequentemente produzem imagens semanticamente imprecisas, especialmente ao lidar com múltiplos sujeitos semanticamente ou visualmente semelhantes. Neste trabalho, estudamos e analisamos as causas dessas limitações. Nossa exploração revela que o principal problema decorre de vazamento semântico inadvertido entre sujeitos no processo de remoção de ruído. Esse vazamento é atribuído às camadas de atenção do modelo de difusão, que tendem a misturar as características visuais de diferentes sujeitos. Para abordar esses problemas, introduzimos a Atenção Delimitada (Bounded Attention), um método livre de treinamento para limitar o fluxo de informação no processo de amostragem. A Atenção Delimitada previne vazamentos prejudiciais entre sujeitos e permite guiar a geração para promover a individualidade de cada sujeito, mesmo com condicionamento complexo de múltiplos sujeitos. Por meio de experimentação extensiva, demonstramos que nosso método capacita a geração de múltiplos sujeitos que se alinham melhor com os prompts e layouts fornecidos.
English
Text-to-image diffusion models have an unprecedented ability to generate diverse and high-quality images. However, they often struggle to faithfully capture the intended semantics of complex input prompts that include multiple subjects. Recently, numerous layout-to-image extensions have been introduced to improve user control, aiming to localize subjects represented by specific tokens. Yet, these methods often produce semantically inaccurate images, especially when dealing with multiple semantically or visually similar subjects. In this work, we study and analyze the causes of these limitations. Our exploration reveals that the primary issue stems from inadvertent semantic leakage between subjects in the denoising process. This leakage is attributed to the diffusion model's attention layers, which tend to blend the visual features of different subjects. To address these issues, we introduce Bounded Attention, a training-free method for bounding the information flow in the sampling process. Bounded Attention prevents detrimental leakage among subjects and enables guiding the generation to promote each subject's individuality, even with complex multi-subject conditioning. Through extensive experimentation, we demonstrate that our method empowers the generation of multiple subjects that better align with given prompts and layouts.
PDF252February 8, 2026