Soyez vous-même : Attention bornée pour la génération d'images multi-sujets à partir de texte
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation
March 25, 2024
Auteurs: Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or
cs.AI
Résumé
Les modèles de diffusion texte-image possèdent une capacité sans précédent à générer des images diversifiées et de haute qualité. Cependant, ils peinent souvent à capturer fidèlement la sémantique souhaitée de prompts complexes incluant plusieurs sujets. Récemment, de nombreuses extensions de type layout-à-image ont été introduites pour améliorer le contrôle utilisateur, visant à localiser les sujets représentés par des tokens spécifiques. Pourtant, ces méthodes produisent souvent des images sémantiquement inexactes, en particulier lorsqu'elles traitent plusieurs sujets sémantiquement ou visuellement similaires. Dans ce travail, nous étudions et analysons les causes de ces limitations. Notre exploration révèle que le problème principal découle d'une fuite sémantique involontaire entre les sujets lors du processus de débruitage. Cette fuite est attribuée aux couches d'attention du modèle de diffusion, qui ont tendance à mélanger les caractéristiques visuelles des différents sujets. Pour résoudre ces problèmes, nous introduisons Bounded Attention, une méthode sans entraînement qui limite le flux d'information lors du processus d'échantillonnage. Bounded Attention empêche les fuites préjudiciables entre les sujets et permet de guider la génération pour promouvoir l'individualité de chaque sujet, même avec un conditionnement complexe multi-sujets. À travers une expérimentation approfondie, nous démontrons que notre méthode permet de générer plusieurs sujets qui s'alignent mieux avec les prompts et les layouts donnés.
English
Text-to-image diffusion models have an unprecedented ability to generate
diverse and high-quality images. However, they often struggle to faithfully
capture the intended semantics of complex input prompts that include multiple
subjects. Recently, numerous layout-to-image extensions have been introduced to
improve user control, aiming to localize subjects represented by specific
tokens. Yet, these methods often produce semantically inaccurate images,
especially when dealing with multiple semantically or visually similar
subjects. In this work, we study and analyze the causes of these limitations.
Our exploration reveals that the primary issue stems from inadvertent semantic
leakage between subjects in the denoising process. This leakage is attributed
to the diffusion model's attention layers, which tend to blend the visual
features of different subjects. To address these issues, we introduce Bounded
Attention, a training-free method for bounding the information flow in the
sampling process. Bounded Attention prevents detrimental leakage among subjects
and enables guiding the generation to promote each subject's individuality,
even with complex multi-subject conditioning. Through extensive
experimentation, we demonstrate that our method empowers the generation of
multiple subjects that better align with given prompts and layouts.Summary
AI-Generated Summary