MoA: Mistura de Atenção para Desagregação de Sujeito-Contexto na Geração Personalizada de Imagens
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
April 17, 2024
Autores: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman
cs.AI
Resumo
Apresentamos uma nova arquitetura para personalização de modelos de difusão de texto para imagem, denominada Mixture-of-Attention (MoA). Inspirada pelo mecanismo Mixture-of-Experts utilizado em grandes modelos de linguagem (LLMs), a MoA distribui a carga de geração entre dois caminhos de atenção: um ramo personalizado e um ramo de prioridade não personalizado. A MoA foi projetada para preservar o conhecimento prévio do modelo original, fixando suas camadas de atenção no ramo de prioridade, enquanto intervém minimamente no processo de geração com o ramo personalizado, que aprende a incorporar sujeitos no layout e contexto gerados pelo ramo de prioridade. Um mecanismo de roteamento inovador gerencia a distribuição de pixels em cada camada entre esses ramos para otimizar a combinação de criação de conteúdo personalizado e genérico. Uma vez treinada, a MoA facilita a criação de imagens personalizadas de alta qualidade, apresentando múltiplos sujeitos com composições e interações tão diversas quanto as geradas pelo modelo original. Crucialmente, a MoA aprimora a distinção entre a capacidade pré-existente do modelo e a nova intervenção personalizada, oferecendo assim um controle mais desacoplado entre sujeito e contexto, anteriormente inatingível. Página do projeto: https://snap-research.github.io/mixture-of-attention
English
We introduce a new architecture for personalization of text-to-image
diffusion models, coined Mixture-of-Attention (MoA). Inspired by the
Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA
distributes the generation workload between two attention pathways: a
personalized branch and a non-personalized prior branch. MoA is designed to
retain the original model's prior by fixing its attention layers in the prior
branch, while minimally intervening in the generation process with the
personalized branch that learns to embed subjects in the layout and context
generated by the prior branch. A novel routing mechanism manages the
distribution of pixels in each layer across these branches to optimize the
blend of personalized and generic content creation. Once trained, MoA
facilitates the creation of high-quality, personalized images featuring
multiple subjects with compositions and interactions as diverse as those
generated by the original model. Crucially, MoA enhances the distinction
between the model's pre-existing capability and the newly augmented
personalized intervention, thereby offering a more disentangled subject-context
control that was previously unattainable. Project page:
https://snap-research.github.io/mixture-of-attention