Sé tú mismo: Atención acotada para la generación de imágenes a partir de texto con múltiples sujetos
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation
March 25, 2024
Autores: Omer Dahary, Or Patashnik, Kfir Aberman, Daniel Cohen-Or
cs.AI
Resumen
Los modelos de difusión de texto a imagen tienen una capacidad sin precedentes para generar imágenes diversas y de alta calidad. Sin embargo, a menudo tienen dificultades para capturar fielmente la semántica deseada de instrucciones complejas que incluyen múltiples sujetos. Recientemente, se han introducido numerosas extensiones de diseño a imagen para mejorar el control del usuario, con el objetivo de localizar sujetos representados por tokens específicos. Sin embargo, estos métodos a menudo producen imágenes semánticamente inexactas, especialmente cuando se trata de múltiples sujetos semántica o visualmente similares. En este trabajo, estudiamos y analizamos las causas de estas limitaciones. Nuestra exploración revela que el problema principal surge de la fuga semántica inadvertida entre los sujetos durante el proceso de eliminación de ruido. Esta fuga se atribuye a las capas de atención del modelo de difusión, que tienden a mezclar las características visuales de diferentes sujetos. Para abordar estos problemas, introducimos Atención Acotada, un método que no requiere entrenamiento y que limita el flujo de información durante el proceso de muestreo. La Atención Acotada previene la fuga perjudicial entre sujetos y permite guiar la generación para promover la individualidad de cada sujeto, incluso con condiciones complejas de múltiples sujetos. A través de una extensa experimentación, demostramos que nuestro método permite la generación de múltiples sujetos que se alinean mejor con las instrucciones y diseños proporcionados.
English
Text-to-image diffusion models have an unprecedented ability to generate
diverse and high-quality images. However, they often struggle to faithfully
capture the intended semantics of complex input prompts that include multiple
subjects. Recently, numerous layout-to-image extensions have been introduced to
improve user control, aiming to localize subjects represented by specific
tokens. Yet, these methods often produce semantically inaccurate images,
especially when dealing with multiple semantically or visually similar
subjects. In this work, we study and analyze the causes of these limitations.
Our exploration reveals that the primary issue stems from inadvertent semantic
leakage between subjects in the denoising process. This leakage is attributed
to the diffusion model's attention layers, which tend to blend the visual
features of different subjects. To address these issues, we introduce Bounded
Attention, a training-free method for bounding the information flow in the
sampling process. Bounded Attention prevents detrimental leakage among subjects
and enables guiding the generation to promote each subject's individuality,
even with complex multi-subject conditioning. Through extensive
experimentation, we demonstrate that our method empowers the generation of
multiple subjects that better align with given prompts and layouts.Summary
AI-Generated Summary