МоА: Смесь внимания для разделения субъекта и контекста в персонализированной генерации изображений.
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
April 17, 2024
Авторы: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman
cs.AI
Аннотация
Мы представляем новую архитектуру для персонализации моделей диффузии текста в изображение, названную Смесь-Внимания (MoA). Вдохновленная механизмом Смесь-Экспертов, используемым в больших языковых моделях (LLM), MoA распределяет рабочую нагрузку по генерации между двумя путями внимания: персонализированным и неперсонализированным. MoA разработана для сохранения исходной модели, фиксируя слои внимания в неперсонализированном пути, и минимального вмешательства в процесс генерации с помощью персонализированного пути, который обучается встраивать объекты в композицию и контекст, созданные неперсонализированным путем. Новый механизм маршрутизации управляет распределением пикселей в каждом слое между этими путями для оптимизации смешивания персонализированного и общего контента. После обучения MoA облегчает создание высококачественных персонализированных изображений с несколькими объектами, композициями и взаимодействиями так разнообразными, как те, что создает исходная модель. Критически важно, что MoA улучшает различие между существующей способностью модели и новым дополнительным персонализированным вмешательством, предлагая более разделенный контроль над объектом и контекстом, который ранее был недостижим. Страница проекта: https://snap-research.github.io/mixture-of-attention
English
We introduce a new architecture for personalization of text-to-image
diffusion models, coined Mixture-of-Attention (MoA). Inspired by the
Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA
distributes the generation workload between two attention pathways: a
personalized branch and a non-personalized prior branch. MoA is designed to
retain the original model's prior by fixing its attention layers in the prior
branch, while minimally intervening in the generation process with the
personalized branch that learns to embed subjects in the layout and context
generated by the prior branch. A novel routing mechanism manages the
distribution of pixels in each layer across these branches to optimize the
blend of personalized and generic content creation. Once trained, MoA
facilitates the creation of high-quality, personalized images featuring
multiple subjects with compositions and interactions as diverse as those
generated by the original model. Crucially, MoA enhances the distinction
between the model's pre-existing capability and the newly augmented
personalized intervention, thereby offering a more disentangled subject-context
control that was previously unattainable. Project page:
https://snap-research.github.io/mixture-of-attentionSummary
AI-Generated Summary