MoA: Mixture-of-Attention per la Disentanglement di Soggetto e Contesto nella Generazione Personalizzata di Immagini
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
April 17, 2024
Autori: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman
cs.AI
Abstract
Introduciamo una nuova architettura per la personalizzazione di modelli di diffusione testo-immagine, denominata Mixture-of-Attention (MoA). Ispirata dal meccanismo Mixture-of-Experts utilizzato nei grandi modelli linguistici (LLM), MoA distribuisce il carico di generazione tra due percorsi di attenzione: un ramo personalizzato e un ramo prior non personalizzato. MoA è progettato per preservare il prior del modello originale fissando i suoi strati di attenzione nel ramo prior, intervenendo in modo minimale nel processo di generazione con il ramo personalizzato che impara a incorporare i soggetti nel layout e nel contesto generati dal ramo prior. Un meccanismo di routing innovativo gestisce la distribuzione dei pixel in ogni strato tra questi rami per ottimizzare la fusione tra creazione di contenuti personalizzati e generici. Una volta addestrato, MoA facilita la creazione di immagini personalizzate di alta qualità che presentano più soggetti con composizioni e interazioni tanto diversificate quanto quelle generate dal modello originale. Fondamentalmente, MoA migliora la distinzione tra la capacità preesistente del modello e il nuovo intervento personalizzato, offrendo un controllo più disgiunto tra soggetto e contesto che in precedenza non era raggiungibile. Pagina del progetto: https://snap-research.github.io/mixture-of-attention
English
We introduce a new architecture for personalization of text-to-image
diffusion models, coined Mixture-of-Attention (MoA). Inspired by the
Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA
distributes the generation workload between two attention pathways: a
personalized branch and a non-personalized prior branch. MoA is designed to
retain the original model's prior by fixing its attention layers in the prior
branch, while minimally intervening in the generation process with the
personalized branch that learns to embed subjects in the layout and context
generated by the prior branch. A novel routing mechanism manages the
distribution of pixels in each layer across these branches to optimize the
blend of personalized and generic content creation. Once trained, MoA
facilitates the creation of high-quality, personalized images featuring
multiple subjects with compositions and interactions as diverse as those
generated by the original model. Crucially, MoA enhances the distinction
between the model's pre-existing capability and the newly augmented
personalized intervention, thereby offering a more disentangled subject-context
control that was previously unattainable. Project page:
https://snap-research.github.io/mixture-of-attention