ChatPaper.aiChatPaper

MoMA: Adaptador Multimodal de LLM para Generación Rápida de Imágenes Personalizadas

MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

April 8, 2024
Autores: Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang
cs.AI

Resumen

En este artículo, presentamos MoMA: un modelo de imágenes personalizado de vocabulario abierto y sin necesidad de entrenamiento que cuenta con capacidades flexibles de zero-shot. A medida que los modelos fundamentales de texto a imagen evolucionan rápidamente, crece la demanda de una traducción robusta de imagen a imagen. Para abordar esta necesidad, MoMA se especializa en la generación de imágenes personalizadas basadas en sujetos. Utilizando un Modelo de Lenguaje Multimodal de Gran Escala (MLLM) de código abierto, entrenamos a MoMA para desempeñar un doble rol como extractor de características y generador. Este enfoque sinergiza eficazmente la información de la imagen de referencia y el prompt de texto para producir características de imagen valiosas, facilitando un modelo de difusión de imágenes. Para aprovechar mejor las características generadas, introducimos además un novedoso método de atajo de auto-atención que transfiere eficientemente las características de imagen a un modelo de difusión de imágenes, mejorando el parecido del objeto objetivo en las imágenes generadas. Notablemente, como un módulo plug-and-play sin ajustes, nuestro modelo requiere solo una imagen de referencia y supera a los métodos existentes en la generación de imágenes con alta fidelidad de detalles, mayor preservación de la identidad y fidelidad al prompt. Nuestro trabajo es de código abierto, proporcionando así acceso universal a estos avances.
English
In this paper, we present MoMA: an open-vocabulary, training-free personalized image model that boasts flexible zero-shot capabilities. As foundational text-to-image models rapidly evolve, the demand for robust image-to-image translation grows. Addressing this need, MoMA specializes in subject-driven personalized image generation. Utilizing an open-source, Multimodal Large Language Model (MLLM), we train MoMA to serve a dual role as both a feature extractor and a generator. This approach effectively synergizes reference image and text prompt information to produce valuable image features, facilitating an image diffusion model. To better leverage the generated features, we further introduce a novel self-attention shortcut method that efficiently transfers image features to an image diffusion model, improving the resemblance of the target object in generated images. Remarkably, as a tuning-free plug-and-play module, our model requires only a single reference image and outperforms existing methods in generating images with high detail fidelity, enhanced identity-preservation and prompt faithfulness. Our work is open-source, thereby providing universal access to these advancements.

Summary

AI-Generated Summary

PDF152December 15, 2024