EasyRef: Referência de Imagem em Grupo Omni-Generalizada para Modelos de Difusão via Multimodal LLM
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM
December 12, 2024
Autores: Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li
cs.AI
Resumo
Foram observadas conquistas significativas na personalização de modelos de difusão. Métodos convencionais sem ajuste principalmente codificam várias imagens de referência pela média de seus embeddings de imagem como condição de injeção, mas tal operação independente de imagem não pode interagir entre as imagens para capturar elementos visuais consistentes dentro de múltiplas referências. Embora a adaptação de baixa patente baseada em ajuste (LoRA) possa extrair efetivamente elementos consistentes dentro de várias imagens durante o processo de treinamento, ela exige ajustes específicos para cada grupo de imagens distintas. Este artigo apresenta o EasyRef, um novo método de adaptação plug-and-play que permite que modelos de difusão sejam condicionados a várias imagens de referência e à instrução de texto. Para explorar efetivamente elementos visuais consistentes dentro de várias imagens, aproveitamos as capacidades de compreensão de múltiplas imagens e de seguir instruções do modelo de linguagem multimodal grande (MLLM), instruindo-o a capturar elementos visuais consistentes com base na instrução. Além disso, injetar as representações do MLLM no processo de difusão por meio de adaptadores pode facilmente generalizar para domínios não vistos, minerando os elementos visuais consistentes dentro de dados não vistos. Para mitigar custos computacionais e aprimorar a preservação de detalhes refinados, introduzimos uma estratégia eficiente de agregação de referência e um esquema de treinamento progressivo. Por fim, apresentamos o MRBench, um novo benchmark de geração de imagens de múltiplas referências. Resultados experimentais demonstram que o EasyRef supera tanto métodos sem ajuste como o IP-Adapter quanto métodos baseados em ajuste como o LoRA, alcançando qualidade estética superior e generalização robusta de zero-shot em diversos domínios.
English
Significant achievements in personalization of diffusion models have been
witnessed. Conventional tuning-free methods mostly encode multiple reference
images by averaging their image embeddings as the injection condition, but such
an image-independent operation cannot perform interaction among images to
capture consistent visual elements within multiple references. Although the
tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent
elements within multiple images through the training process, it necessitates
specific finetuning for each distinct image group. This paper introduces
EasyRef, a novel plug-and-play adaptation method that enables diffusion models
to be conditioned on multiple reference images and the text prompt. To
effectively exploit consistent visual elements within multiple images, we
leverage the multi-image comprehension and instruction-following capabilities
of the multimodal large language model (MLLM), prompting it to capture
consistent visual elements based on the instruction. Besides, injecting the
MLLM's representations into the diffusion process through adapters can easily
generalize to unseen domains, mining the consistent visual elements within
unseen data. To mitigate computational costs and enhance fine-grained detail
preservation, we introduce an efficient reference aggregation strategy and a
progressive training scheme. Finally, we introduce MRBench, a new
multi-reference image generation benchmark. Experimental results demonstrate
EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based
methods like LoRA, achieving superior aesthetic quality and robust zero-shot
generalization across diverse domains.Summary
AI-Generated Summary