MoMA: Adaptador Multimodal de LLM para Geração Rápida de Imagens Personalizadas
MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation
April 8, 2024
Autores: Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang
cs.AI
Resumo
Neste artigo, apresentamos o MoMA: um modelo de imagem personalizado de vocabulário aberto e sem necessidade de treinamento, que oferece capacidades flexíveis de zero-shot. À medida que os modelos fundamentais de texto para imagem evoluem rapidamente, a demanda por traduções robustas de imagem para imagem cresce. Atendendo a essa necessidade, o MoMA se especializa na geração de imagens personalizadas orientadas por sujeitos. Utilizando um Modelo de Linguagem Multimodal de Grande Escala (MLLM) de código aberto, treinamos o MoMA para desempenhar um papel duplo como extrator de características e gerador. Essa abordagem sinergiza efetivamente informações de imagem de referência e prompt de texto para produzir características de imagem valiosas, facilitando um modelo de difusão de imagem. Para melhor aproveitar as características geradas, introduzimos ainda um novo método de atalho de autoatenção que transfere eficientemente as características de imagem para um modelo de difusão de imagem, melhorando a semelhança do objeto alvo nas imagens geradas. Notavelmente, como um módulo plug-and-play sem ajustes, nosso modelo requer apenas uma única imagem de referência e supera métodos existentes na geração de imagens com alta fidelidade de detalhes, preservação de identidade aprimorada e fidelidade ao prompt. Nosso trabalho é de código aberto, proporcionando assim acesso universal a esses avanços.
English
In this paper, we present MoMA: an open-vocabulary, training-free
personalized image model that boasts flexible zero-shot capabilities. As
foundational text-to-image models rapidly evolve, the demand for robust
image-to-image translation grows. Addressing this need, MoMA specializes in
subject-driven personalized image generation. Utilizing an open-source,
Multimodal Large Language Model (MLLM), we train MoMA to serve a dual role as
both a feature extractor and a generator. This approach effectively synergizes
reference image and text prompt information to produce valuable image features,
facilitating an image diffusion model. To better leverage the generated
features, we further introduce a novel self-attention shortcut method that
efficiently transfers image features to an image diffusion model, improving the
resemblance of the target object in generated images. Remarkably, as a
tuning-free plug-and-play module, our model requires only a single reference
image and outperforms existing methods in generating images with high detail
fidelity, enhanced identity-preservation and prompt faithfulness. Our work is
open-source, thereby providing universal access to these advancements.