MoMA: Adaptador Multimodal de LLM para Geração Rápida de Imagens Personalizadas

Resumo

Neste artigo, apresentamos o MoMA: um modelo de imagem personalizado de vocabulário aberto e sem necessidade de treinamento, que oferece capacidades flexíveis de zero-shot. À medida que os modelos fundamentais de texto para imagem evoluem rapidamente, a demanda por traduções robustas de imagem para imagem cresce. Atendendo a essa necessidade, o MoMA se especializa na geração de imagens personalizadas orientadas por sujeitos. Utilizando um Modelo de Linguagem Multimodal de Grande Escala (MLLM) de código aberto, treinamos o MoMA para desempenhar um papel duplo como extrator de características e gerador. Essa abordagem sinergiza efetivamente informações de imagem de referência e prompt de texto para produzir características de imagem valiosas, facilitando um modelo de difusão de imagem. Para melhor aproveitar as características geradas, introduzimos ainda um novo método de atalho de autoatenção que transfere eficientemente as características de imagem para um modelo de difusão de imagem, melhorando a semelhança do objeto alvo nas imagens geradas. Notavelmente, como um módulo plug-and-play sem ajustes, nosso modelo requer apenas uma única imagem de referência e supera métodos existentes na geração de imagens com alta fidelidade de detalhes, preservação de identidade aprimorada e fidelidade ao prompt. Nosso trabalho é de código aberto, proporcionando assim acesso universal a esses avanços.

English

In this paper, we present MoMA: an open-vocabulary, training-free personalized image model that boasts flexible zero-shot capabilities. As foundational text-to-image models rapidly evolve, the demand for robust image-to-image translation grows. Addressing this need, MoMA specializes in subject-driven personalized image generation. Utilizing an open-source, Multimodal Large Language Model (MLLM), we train MoMA to serve a dual role as both a feature extractor and a generator. This approach effectively synergizes reference image and text prompt information to produce valuable image features, facilitating an image diffusion model. To better leverage the generated features, we further introduce a novel self-attention shortcut method that efficiently transfers image features to an image diffusion model, improving the resemblance of the target object in generated images. Remarkably, as a tuning-free plug-and-play module, our model requires only a single reference image and outperforms existing methods in generating images with high detail fidelity, enhanced identity-preservation and prompt faithfulness. Our work is open-source, thereby providing universal access to these advancements.

MoMA: Adaptador Multimodal de LLM para Geração Rápida de Imagens Personalizadas

MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

Resumo

Support