MoMA: 빠른 개인화 이미지 생성을 위한 멀티모달 LLM 어댑터
MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation
April 8, 2024
저자: Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang
cs.AI
초록
본 논문에서는 유연한 제로샷(zero-shot) 능력을 자랑하는 오픈-보캐뷸러리(open-vocabulary) 방식의 학습이 필요 없는 개인화 이미지 모델인 MoMA를 소개한다. 기초적인 텍스트-이미지(text-to-image) 모델이 빠르게 발전함에 따라, 강력한 이미지-이미지(image-to-image) 변환에 대한 수요가 증가하고 있다. 이러한 요구를 해결하기 위해, MoMA는 주체 기반 개인화 이미지 생성에 특화되어 있다. 오픈소스 멀티모달 대형 언어 모델(Multimodal Large Language Model, MLLM)을 활용하여, MoMA를 특징 추출기(feature extractor)와 생성기(generator)의 이중 역할을 수행하도록 학습시켰다. 이 접근법은 참조 이미지와 텍스트 프롬프트 정보를 효과적으로 결합하여 가치 있는 이미지 특징을 생성하며, 이를 통해 이미지 확산 모델(image diffusion model)을 용이하게 한다. 생성된 특징을 더 잘 활용하기 위해, 우리는 새로운 자기 주의(self-attention) 단축 방법을 도입하여 이미지 특징을 이미지 확산 모델로 효율적으로 전달함으로써 생성된 이미지에서 대상 객체의 유사성을 향상시켰다. 주목할 만한 점은, 튜닝이 필요 없는 플러그 앤 플레이(plug-and-play) 모듈로서, 우리의 모델은 단일 참조 이미지만을 요구하며, 높은 디테일 충실도, 향상된 신원 보존 및 프롬프트 충실도 측면에서 기존 방법들을 능가한다. 우리의 작업은 오픈소스로 제공되어 이러한 발전을 누구나 접근할 수 있도록 한다.
English
In this paper, we present MoMA: an open-vocabulary, training-free
personalized image model that boasts flexible zero-shot capabilities. As
foundational text-to-image models rapidly evolve, the demand for robust
image-to-image translation grows. Addressing this need, MoMA specializes in
subject-driven personalized image generation. Utilizing an open-source,
Multimodal Large Language Model (MLLM), we train MoMA to serve a dual role as
both a feature extractor and a generator. This approach effectively synergizes
reference image and text prompt information to produce valuable image features,
facilitating an image diffusion model. To better leverage the generated
features, we further introduce a novel self-attention shortcut method that
efficiently transfers image features to an image diffusion model, improving the
resemblance of the target object in generated images. Remarkably, as a
tuning-free plug-and-play module, our model requires only a single reference
image and outperforms existing methods in generating images with high detail
fidelity, enhanced identity-preservation and prompt faithfulness. Our work is
open-source, thereby providing universal access to these advancements.Summary
AI-Generated Summary