MoA: パーソナライズド画像生成における主題と文脈の分離のためのアテンション混合
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
April 17, 2024
著者: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman
cs.AI
要旨
テキストから画像への拡散モデルのパーソナライゼーションのための新しいアーキテクチャを紹介する。これはMixture-of-Attention(MoA)と名付けられた。大規模言語モデル(LLMs)で用いられるMixture-of-Expertsメカニズムに着想を得たMoAは、生成作業を2つの注意経路、すなわちパーソナライズされたブランチと非パーソナライズされた事前ブランチの間で分散する。MoAは、事前ブランチの注意層を固定することで元のモデルの事前分布を保持しつつ、事前ブランチによって生成されたレイアウトとコンテキストに被写体を埋め込むことを学習するパーソナライズされたブランチで生成プロセスに最小限の介入を行うように設計されている。新しいルーティングメカニズムは、各層のピクセルをこれらのブランチ間で分配し、パーソナライズされたコンテンツと汎用的なコンテンツの作成の最適なブレンドを実現する。一度訓練されると、MoAは、元のモデルによって生成されるものと同様に多様な構成と相互作用を持つ複数の被写体を特徴とする高品質なパーソナライズされた画像の作成を容易にする。重要なことに、MoAは、モデルの既存の能力と新たに拡張されたパーソナライズされた介入との区別を強化し、これまで達成できなかった被写体とコンテキストのより分離された制御を提供する。プロジェクトページ:https://snap-research.github.io/mixture-of-attention
English
We introduce a new architecture for personalization of text-to-image
diffusion models, coined Mixture-of-Attention (MoA). Inspired by the
Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA
distributes the generation workload between two attention pathways: a
personalized branch and a non-personalized prior branch. MoA is designed to
retain the original model's prior by fixing its attention layers in the prior
branch, while minimally intervening in the generation process with the
personalized branch that learns to embed subjects in the layout and context
generated by the prior branch. A novel routing mechanism manages the
distribution of pixels in each layer across these branches to optimize the
blend of personalized and generic content creation. Once trained, MoA
facilitates the creation of high-quality, personalized images featuring
multiple subjects with compositions and interactions as diverse as those
generated by the original model. Crucially, MoA enhances the distinction
between the model's pre-existing capability and the newly augmented
personalized intervention, thereby offering a more disentangled subject-context
control that was previously unattainable. Project page:
https://snap-research.github.io/mixture-of-attentionSummary
AI-Generated Summary