MoA: 개인화된 이미지 생성을 위한 주제-맥락 분리를 위한 어텐션 혼합 기법
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation
April 17, 2024
저자: Kuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman
cs.AI
초록
텍스트-이미지 확산 모델의 개인화를 위한 새로운 아키텍처인 Mixture-of-Attention(MoA)을 소개한다. 대규모 언어 모델(LLM)에서 활용되는 Mixture-of-Experts 메커니즘에서 영감을 받은 MoA는 생성 작업을 두 개의 주의 경로, 즉 개인화된 브랜치와 비개인화된 사전 브랜치 사이에 분배한다. MoA는 사전 브랜치의 주의 레이어를 고정함으로써 원본 모델의 사전 지식을 유지하도록 설계되었으며, 사전 브랜치가 생성한 레이아웃과 컨텍스트에 주체를 임베딩하는 방법을 학습하는 개인화된 브랜치를 통해 생성 과정에 최소한의 개입을 한다. 새로운 라우팅 메커니즘은 각 레이어의 픽셀을 이러한 브랜치 간에 분배하여 개인화된 콘텐츠와 일반적인 콘텐츠 생성의 혼합을 최적화한다. 학습이 완료되면 MoA는 원본 모델이 생성한 것만큼 다양한 구성과 상호작용을 가진 다중 주체를 포함한 고품질의 개인화된 이미지 생성을 가능하게 한다. 특히, MoA는 모델의 기존 능력과 새롭게 추가된 개인화된 개입 간의 구분을 강화함으로써, 이전에는 달성할 수 없었던 더욱 분리된 주체-컨텍스트 제어를 제공한다. 프로젝트 페이지: https://snap-research.github.io/mixture-of-attention
English
We introduce a new architecture for personalization of text-to-image
diffusion models, coined Mixture-of-Attention (MoA). Inspired by the
Mixture-of-Experts mechanism utilized in large language models (LLMs), MoA
distributes the generation workload between two attention pathways: a
personalized branch and a non-personalized prior branch. MoA is designed to
retain the original model's prior by fixing its attention layers in the prior
branch, while minimally intervening in the generation process with the
personalized branch that learns to embed subjects in the layout and context
generated by the prior branch. A novel routing mechanism manages the
distribution of pixels in each layer across these branches to optimize the
blend of personalized and generic content creation. Once trained, MoA
facilitates the creation of high-quality, personalized images featuring
multiple subjects with compositions and interactions as diverse as those
generated by the original model. Crucially, MoA enhances the distinction
between the model's pre-existing capability and the newly augmented
personalized intervention, thereby offering a more disentangled subject-context
control that was previously unattainable. Project page:
https://snap-research.github.io/mixture-of-attentionSummary
AI-Generated Summary