MoA: Mixture-of-Attention voor Onderwerp-Context Ontvlechting in Gepersonaliseerde Afbeeldingsgeneratie
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
April 17, 2024
Auteurs: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman
cs.AI
Samenvatting
We introduceren een nieuwe architectuur voor de personalisatie van tekst-naar-beeld diffusiemodellen, genaamd Mixture-of-Attention (MoA). Geïnspireerd door het Mixture-of-Experts mechanisme dat wordt gebruikt in grote taalmodelen (LLMs), verdeelt MoA de generatiewerkbelasting tussen twee aandachtspaden: een gepersonaliseerde tak en een niet-gepersonaliseerde prior tak. MoA is ontworpen om de oorspronkelijke prior van het model te behouden door de aandachtslagen in de prior tak vast te zetten, terwijl het minimaal ingrijpt in het generatieproces met de gepersonaliseerde tak die leert om onderwerpen in te bedden in de lay-out en context gegenereerd door de prior tak. Een nieuw routeringsmechanisme beheert de verdeling van pixels in elke laag over deze takken om de mix van gepersonaliseerde en generieke contentcreatie te optimaliseren. Eenmaal getraind, vergemakkelijkt MoA het creëren van hoogwaardige, gepersonaliseerde afbeeldingen met meerdere onderwerpen met composities en interacties die zo divers zijn als die gegenereerd door het oorspronkelijke model. Cruciaal is dat MoA het onderscheid tussen de bestaande mogelijkheden van het model en de nieuw toegevoegde gepersonaliseerde interventie versterkt, waardoor een meer ontwarde controle over onderwerp-context wordt geboden die voorheen onbereikbaar was. Projectpagina: https://snap-research.github.io/mixture-of-attention
English
We introduce a new architecture for personalization of text-to-image
diffusion models, coined Mixture-of-Attention (MoA). Inspired by the
Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA
distributes the generation workload between two attention pathways: a
personalized branch and a non-personalized prior branch. MoA is designed to
retain the original model's prior by fixing its attention layers in the prior
branch, while minimally intervening in the generation process with the
personalized branch that learns to embed subjects in the layout and context
generated by the prior branch. A novel routing mechanism manages the
distribution of pixels in each layer across these branches to optimize the
blend of personalized and generic content creation. Once trained, MoA
facilitates the creation of high-quality, personalized images featuring
multiple subjects with compositions and interactions as diverse as those
generated by the original model. Crucially, MoA enhances the distinction
between the model's pre-existing capability and the newly augmented
personalized intervention, thereby offering a more disentangled subject-context
control that was previously unattainable. Project page:
https://snap-research.github.io/mixture-of-attention