MoMA: Adattatore Multimodale per LLM per la Generazione Rapida di Immagini Personalizzate

Abstract

In questo articolo presentiamo MoMA: un modello di immagini personalizzato open-vocabulary, privo di addestramento, che vanta capacità zero-shot flessibili. Con l'evoluzione rapida dei modelli test-to-immagine di base, cresce la domanda di una robusta traduzione immagine-to-immagine. Rispondendo a questa esigenza, MoMA si specializza nella generazione di immagini personalizzate guidata dal soggetto. Utilizzando un Multimodal Large Language Model (MLLM) open-source, addestriamo MoMA per svolgere un duplice ruolo come estrattore di feature e generatore. Questo approccio sinergizza efficacemente le informazioni dell'immagine di riferimento e del prompt testuale per produrre feature immagine utili, facilitando un modello di diffusione delle immagini. Per sfruttare al meglio le feature generate, introduciamo inoltre un nuovo metodo di scorciatoia self-attention che trasferisce in modo efficiente le feature immagine a un modello di diffusione delle immagini, migliorando la somiglianza dell'oggetto target nelle immagini generate. Notevolmente, come modulo plug-and-play privo di tuning, il nostro modello richiede solo una singola immagine di riferimento e supera i metodi esistenti nella generazione di immagini con alta fedeltà dei dettagli, migliorata conservazione dell'identità e fedeltà al prompt. Il nostro lavoro è open-source, fornendo così accesso universale a questi progressi.

English

In this paper, we present MoMA: an open-vocabulary, training-free personalized image model that boasts flexible zero-shot capabilities. As foundational text-to-image models rapidly evolve, the demand for robust image-to-image translation grows. Addressing this need, MoMA specializes in subject-driven personalized image generation. Utilizing an open-source, Multimodal Large Language Model (MLLM), we train MoMA to serve a dual role as both a feature extractor and a generator. This approach effectively synergizes reference image and text prompt information to produce valuable image features, facilitating an image diffusion model. To better leverage the generated features, we further introduce a novel self-attention shortcut method that efficiently transfers image features to an image diffusion model, improving the resemblance of the target object in generated images. Remarkably, as a tuning-free plug-and-play module, our model requires only a single reference image and outperforms existing methods in generating images with high detail fidelity, enhanced identity-preservation and prompt faithfulness. Our work is open-source, thereby providing universal access to these advancements.

MoMA: Adattatore Multimodale per LLM per la Generazione Rapida di Immagini Personalizzate

MoMA: Multimodal LLM Adapter for Fast Personalized Image Generation

Abstract

Support