ChatPaper.aiChatPaper

MoA: Mezcla-de-Atención para la Desvinculación de Sujeto-Contexto en la Generación Personalizada de Imágenes

MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

April 17, 2024
Autores: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman
cs.AI

Resumen

Presentamos una nueva arquitectura para la personalización de modelos de difusión de texto a imagen, denominada Mezcla de Atención (Mixture-of-Attention, MoA). Inspirada en el mecanismo de Mezcla de Expertos (Mixture-of-Experts) utilizado en modelos de lenguaje grandes (LLMs), MoA distribuye la carga de generación entre dos vías de atención: una rama personalizada y una rama prioritaria no personalizada. MoA está diseñada para conservar el conocimiento previo del modelo original fijando sus capas de atención en la rama prioritaria, mientras interviene mínimamente en el proceso de generación con la rama personalizada, que aprende a integrar sujetos en el diseño y contexto generados por la rama prioritaria. Un mecanismo de enrutamiento novedoso gestiona la distribución de píxeles en cada capa entre estas ramas para optimizar la combinación de creación de contenido personalizado y genérico. Una vez entrenada, MoA facilita la creación de imágenes personalizadas de alta calidad que incluyen múltiples sujetos con composiciones e interacciones tan diversas como las generadas por el modelo original. Es crucial destacar que MoA mejora la distinción entre la capacidad preexistente del modelo y la intervención personalizada recién incorporada, ofreciendo así un control más desacoplado entre sujeto y contexto que antes era inalcanzable. Página del proyecto: https://snap-research.github.io/mixture-of-attention.
English
We introduce a new architecture for personalization of text-to-image diffusion models, coined Mixture-of-Attention (MoA). Inspired by the Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA distributes the generation workload between two attention pathways: a personalized branch and a non-personalized prior branch. MoA is designed to retain the original model's prior by fixing its attention layers in the prior branch, while minimally intervening in the generation process with the personalized branch that learns to embed subjects in the layout and context generated by the prior branch. A novel routing mechanism manages the distribution of pixels in each layer across these branches to optimize the blend of personalized and generic content creation. Once trained, MoA facilitates the creation of high-quality, personalized images featuring multiple subjects with compositions and interactions as diverse as those generated by the original model. Crucially, MoA enhances the distinction between the model's pre-existing capability and the newly augmented personalized intervention, thereby offering a more disentangled subject-context control that was previously unattainable. Project page: https://snap-research.github.io/mixture-of-attention

Summary

AI-Generated Summary

PDF151December 15, 2024