MoA : Mélange d'Attention pour la Séparation Sujet-Contexte dans la Génération d'Images Personnalisées
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
April 17, 2024
Auteurs: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman
cs.AI
Résumé
Nous présentons une nouvelle architecture pour la personnalisation des modèles de diffusion texte-image, baptisée Mixture-of-Attention (MoA). Inspirée par le mécanisme Mixture-of-Experts utilisé dans les grands modèles de langage (LLMs), MoA répartit la charge de génération entre deux voies d'attention : une branche personnalisée et une branche prioritaire non personnalisée. MoA est conçue pour préserver l'a priori du modèle original en fixant ses couches d'attention dans la branche prioritaire, tout en intervenant minimalement dans le processus de génération avec la branche personnalisée, qui apprend à intégrer des sujets dans la mise en page et le contexte générés par la branche prioritaire. Un mécanisme de routage innovant gère la répartition des pixels dans chaque couche entre ces branches afin d'optimiser le mélange entre la création de contenu personnalisé et générique. Une fois entraîné, MoA facilite la création d'images personnalisées de haute qualité, mettant en scène plusieurs sujets avec des compositions et des interactions aussi variées que celles générées par le modèle original. De manière cruciale, MoA améliore la distinction entre la capacité préexistante du modèle et l'intervention personnalisée nouvellement ajoutée, offrant ainsi un contrôle plus dissocié entre sujet et contexte, auparavant inaccessible. Page du projet : https://snap-research.github.io/mixture-of-attention
English
We introduce a new architecture for personalization of text-to-image
diffusion models, coined Mixture-of-Attention (MoA). Inspired by the
Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA
distributes the generation workload between two attention pathways: a
personalized branch and a non-personalized prior branch. MoA is designed to
retain the original model's prior by fixing its attention layers in the prior
branch, while minimally intervening in the generation process with the
personalized branch that learns to embed subjects in the layout and context
generated by the prior branch. A novel routing mechanism manages the
distribution of pixels in each layer across these branches to optimize the
blend of personalized and generic content creation. Once trained, MoA
facilitates the creation of high-quality, personalized images featuring
multiple subjects with compositions and interactions as diverse as those
generated by the original model. Crucially, MoA enhances the distinction
between the model's pre-existing capability and the newly augmented
personalized intervention, thereby offering a more disentangled subject-context
control that was previously unattainable. Project page:
https://snap-research.github.io/mixture-of-attentionSummary
AI-Generated Summary