ChatPaper.aiChatPaper

自分らしく:マルチサブジェクトのテキストから画像生成のための境界付きアテンション

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

March 25, 2024
著者: Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or
cs.AI

要旨

テキストから画像を生成する拡散モデルは、多様で高品質な画像を生成する前例のない能力を持っています。しかし、複数の主体を含む複雑な入力プロンプトの意図した意味を忠実に捉えることが難しい場合がしばしばあります。最近、ユーザーコントロールを向上させるために、特定のトークンによって表現される主体を局所化することを目的とした、レイアウトから画像への拡張が数多く導入されています。しかし、これらの手法は、特に意味的または視覚的に類似した複数の主体を扱う場合に、意味的に不正確な画像を生成することが多いです。本研究では、これらの制限の原因を調査し分析します。私たちの探求により、主な問題は、ノイズ除去プロセスにおける主体間の意図しない意味の漏洩に起因していることが明らかになりました。この漏洩は、拡散モデルのアテンションレイヤーが異なる主体の視覚的特徴を混ぜ合わせる傾向があるためです。これらの問題に対処するために、サンプリングプロセスにおける情報の流れを制限するトレーニング不要の手法であるBounded Attentionを導入します。Bounded Attentionは、主体間の有害な漏洩を防ぎ、複雑な多主体条件付けにおいても各主体の個性を促進するように生成を導くことを可能にします。広範な実験を通じて、私たちの手法が、与えられたプロンプトとレイアウトにより良く一致する複数の主体の生成を可能にすることを実証します。
English
Text-to-image diffusion models have an unprecedented ability to generate diverse and high-quality images. However, they often struggle to faithfully capture the intended semantics of complex input prompts that include multiple subjects. Recently, numerous layout-to-image extensions have been introduced to improve user control, aiming to localize subjects represented by specific tokens. Yet, these methods often produce semantically inaccurate images, especially when dealing with multiple semantically or visually similar subjects. In this work, we study and analyze the causes of these limitations. Our exploration reveals that the primary issue stems from inadvertent semantic leakage between subjects in the denoising process. This leakage is attributed to the diffusion model's attention layers, which tend to blend the visual features of different subjects. To address these issues, we introduce Bounded Attention, a training-free method for bounding the information flow in the sampling process. Bounded Attention prevents detrimental leakage among subjects and enables guiding the generation to promote each subject's individuality, even with complex multi-subject conditioning. Through extensive experimentation, we demonstrate that our method empowers the generation of multiple subjects that better align with given prompts and layouts.

Summary

AI-Generated Summary

PDF262December 15, 2024