MoMA : Adaptateur Multimodal pour LLM permettant une Génération Rapide d'Images Personnalisées
MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation
April 8, 2024
Auteurs: Kunpeng Song, Yizhe Zhu, Bingchen Liu, Qing Yan, Ahmed Elgammal, Xiao Yang
cs.AI
Résumé
Dans cet article, nous présentons MoMA : un modèle d'image personnalisé à vocabulaire ouvert et sans apprentissage, doté de capacités flexibles de zero-shot. Alors que les modèles fondamentaux de génération d'images à partir de texte évoluent rapidement, la demande pour une traduction robuste d'image à image augmente. Répondant à ce besoin, MoMA se spécialise dans la génération d'images personnalisées pilotée par un sujet. En utilisant un modèle de langage multimodal (MLLM) open-source, nous entraînons MoMA pour jouer un double rôle en tant qu'extracteur de caractéristiques et générateur. Cette approche combine efficacement les informations d'une image de référence et d'une invite textuelle pour produire des caractéristiques d'image utiles, facilitant ainsi un modèle de diffusion d'images. Pour mieux exploiter les caractéristiques générées, nous introduisons en outre une nouvelle méthode de raccourci d'auto-attention qui transfère efficacement les caractéristiques d'image à un modèle de diffusion d'images, améliorant la ressemblance de l'objet cible dans les images générées. De manière remarquable, en tant que module plug-and-play sans réglage, notre modèle ne nécessite qu'une seule image de référence et surpasse les méthodes existantes en générant des images avec une fidélité élevée des détails, une préservation améliorée de l'identité et une fidélité à l'invite. Notre travail est open-source, offrant ainsi un accès universel à ces avancées.
English
In this paper, we present MoMA: an open-vocabulary, training-free
personalized image model that boasts flexible zero-shot capabilities. As
foundational text-to-image models rapidly evolve, the demand for robust
image-to-image translation grows. Addressing this need, MoMA specializes in
subject-driven personalized image generation. Utilizing an open-source,
Multimodal Large Language Model (MLLM), we train MoMA to serve a dual role as
both a feature extractor and a generator. This approach effectively synergizes
reference image and text prompt information to produce valuable image features,
facilitating an image diffusion model. To better leverage the generated
features, we further introduce a novel self-attention shortcut method that
efficiently transfers image features to an image diffusion model, improving the
resemblance of the target object in generated images. Remarkably, as a
tuning-free plug-and-play module, our model requires only a single reference
image and outperforms existing methods in generating images with high detail
fidelity, enhanced identity-preservation and prompt faithfulness. Our work is
open-source, thereby providing universal access to these advancements.Summary
AI-Generated Summary