ChatPaper.aiChatPaper

자신을 표현하라: 다중 주체 텍스트-이미지 생성을 위한 제한된 주의 기법

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

March 25, 2024
저자: Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or
cs.AI

초록

텍스트-이미지 확산 모델은 다양하고 고품질의 이미지를 생성할 수 있는 전례 없는 능력을 가지고 있습니다. 그러나 이러한 모델들은 종종 여러 주체를 포함하는 복잡한 입력 프롬프트의 의도된 의미를 충실히 포착하는 데 어려움을 겪습니다. 최근에는 사용자 제어를 개선하기 위해 특정 토큰으로 표현된 주체를 지역화하는 것을 목표로 하는 다양한 레이아웃-이미지 확장 방법들이 도입되었습니다. 그러나 이러한 방법들은 특히 의미적으로나 시각적으로 유사한 여러 주체를 다룰 때 의미적으로 부정확한 이미지를 생성하는 경우가 많습니다. 본 연구에서는 이러한 한계의 원인을 연구하고 분석합니다. 우리의 탐구는 주된 문제가 노이즈 제거 과정에서 주체 간의 의도치 않은 의미적 누출에서 비롯된다는 것을 밝혀냅니다. 이 누출은 확산 모델의 어텐션 레이어가 서로 다른 주체의 시각적 특징을 혼합하는 경향이 있기 때문입니다. 이러한 문제를 해결하기 위해, 우리는 샘플링 과정에서 정보 흐름을 제한하는 학습이 필요 없는 방법인 Bounded Attention을 소개합니다. Bounded Attention은 주체 간의 해로운 누출을 방지하고, 복잡한 다중 주체 조건에서도 각 주체의 개별성을 촉진하도록 생성 과정을 안내할 수 있게 합니다. 광범위한 실험을 통해, 우리의 방법이 주어진 프롬프트와 레이아웃에 더 잘 부합하는 여러 주체의 생성을 가능하게 한다는 것을 입증합니다.
English
Text-to-image diffusion models have an unprecedented ability to generate diverse and high-quality images. However, they often struggle to faithfully capture the intended semantics of complex input prompts that include multiple subjects. Recently, numerous layout-to-image extensions have been introduced to improve user control, aiming to localize subjects represented by specific tokens. Yet, these methods often produce semantically inaccurate images, especially when dealing with multiple semantically or visually similar subjects. In this work, we study and analyze the causes of these limitations. Our exploration reveals that the primary issue stems from inadvertent semantic leakage between subjects in the denoising process. This leakage is attributed to the diffusion model's attention layers, which tend to blend the visual features of different subjects. To address these issues, we introduce Bounded Attention, a training-free method for bounding the information flow in the sampling process. Bounded Attention prevents detrimental leakage among subjects and enables guiding the generation to promote each subject's individuality, even with complex multi-subject conditioning. Through extensive experimentation, we demonstrate that our method empowers the generation of multiple subjects that better align with given prompts and layouts.

Summary

AI-Generated Summary

PDF262December 15, 2024