MoA: Mischung von Aufmerksamkeit für die Entflechtung von Subjekt-Kontext in der personalisierten Bildgenerierung
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
April 17, 2024
Autoren: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman
cs.AI
Zusammenfassung
Wir stellen eine neue Architektur zur Personalisierung von Text-zu-Bild-Diffusionsmodellen vor, genannt Mixture-of-Attention (MoA). Inspiriert vom Mixture-of-Experts-Mechanismus, der in großen Sprachmodellen (LLMs) verwendet wird, verteilt MoA die Generierungsarbeit zwischen zwei Aufmerksamkeitspfaden: einem personalisierten Zweig und einem nicht-personalisierten Vorgabezweig. MoA ist darauf ausgelegt, das ursprüngliche Modell durch Fixierung seiner Aufmerksamkeitsschichten im Vorgabezweig beizubehalten, während es minimal in den Generierungsprozess mit dem personalisierten Zweig eingreift, der lernt, Themen in das Layout und den Kontext einzubetten, die vom Vorgabezweig generiert wurden. Ein neuartiger Routing-Mechanismus verwaltet die Verteilung von Pixeln in jeder Schicht über diese Zweige, um die Mischung aus personalisierter und generischer Inhaltsentwicklung zu optimieren. Nach dem Training erleichtert MoA die Erstellung hochwertiger, personalisierter Bilder mit mehreren Themen, deren Kompositionen und Interaktionen so vielfältig sind wie die vom ursprünglichen Modell generierten. Wesentlich ist, dass MoA den Unterschied zwischen der bereits vorhandenen Fähigkeit des Modells und dem neu ergänzten personalisierten Eingriff verstärkt und somit eine stärker entwirrte Steuerung von Thema und Kontext bietet, die zuvor unerreichbar war. Projektseite: https://snap-research.github.io/mixture-of-attention
English
We introduce a new architecture for personalization of text-to-image
diffusion models, coined Mixture-of-Attention (MoA). Inspired by the
Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA
distributes the generation workload between two attention pathways: a
personalized branch and a non-personalized prior branch. MoA is designed to
retain the original model's prior by fixing its attention layers in the prior
branch, while minimally intervening in the generation process with the
personalized branch that learns to embed subjects in the layout and context
generated by the prior branch. A novel routing mechanism manages the
distribution of pixels in each layer across these branches to optimize the
blend of personalized and generic content creation. Once trained, MoA
facilitates the creation of high-quality, personalized images featuring
multiple subjects with compositions and interactions as diverse as those
generated by the original model. Crucially, MoA enhances the distinction
between the model's pre-existing capability and the newly augmented
personalized intervention, thereby offering a more disentangled subject-context
control that was previously unattainable. Project page:
https://snap-research.github.io/mixture-of-attentionSummary
AI-Generated Summary