Sii Te Stesso: Attenzione Limitata per la Generazione di Immagini da Testo Multi-Soggetto

Abstract

I modelli di diffusione text-to-image possiedono una capacità senza precedenti di generare immagini diversificate e di alta qualità. Tuttavia, spesso faticano a catturare fedelmente la semantica intesa di prompt di input complessi che includono più soggetti. Recentemente, sono state introdotte numerose estensioni layout-to-image per migliorare il controllo dell'utente, con l'obiettivo di localizzare i soggetti rappresentati da token specifici. Tuttavia, questi metodi spesso producono immagini semanticamente inaccurate, specialmente quando si tratta di più soggetti semanticamente o visivamente simili. In questo lavoro, studiamo e analizziamo le cause di queste limitazioni. La nostra esplorazione rivela che il problema principale deriva da una fuoriuscita semantica involontaria tra i soggetti durante il processo di denoising. Questa fuoriuscita è attribuita agli strati di attenzione del modello di diffusione, che tendono a mescolare le caratteristiche visive di diversi soggetti. Per affrontare questi problemi, introduciamo Bounded Attention, un metodo senza addestramento che limita il flusso di informazioni durante il processo di campionamento. Bounded Attention previene la fuoriuscita dannosa tra i soggetti e consente di guidare la generazione per promuovere l'individualità di ciascun soggetto, anche con condizionamenti complessi multi-soggetto. Attraverso un'ampia sperimentazione, dimostriamo che il nostro metodo permette la generazione di più soggetti che si allineano meglio ai prompt e ai layout forniti.

English

Text-to-image diffusion models have an unprecedented ability to generate diverse and high-quality images. However, they often struggle to faithfully capture the intended semantics of complex input prompts that include multiple subjects. Recently, numerous layout-to-image extensions have been introduced to improve user control, aiming to localize subjects represented by specific tokens. Yet, these methods often produce semantically inaccurate images, especially when dealing with multiple semantically or visually similar subjects. In this work, we study and analyze the causes of these limitations. Our exploration reveals that the primary issue stems from inadvertent semantic leakage between subjects in the denoising process. This leakage is attributed to the diffusion model's attention layers, which tend to blend the visual features of different subjects. To address these issues, we introduce Bounded Attention, a training-free method for bounding the information flow in the sampling process. Bounded Attention prevents detrimental leakage among subjects and enables guiding the generation to promote each subject's individuality, even with complex multi-subject conditioning. Through extensive experimentation, we demonstrate that our method empowers the generation of multiple subjects that better align with given prompts and layouts.

Sii Te Stesso: Attenzione Limitata per la Generazione di Immagini da Testo Multi-Soggetto

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

Abstract

Support