EasyRef: Referência de Imagem em Grupo Omni-Generalizada para Modelos de Difusão via Multimodal LLM

Resumo

Foram observadas conquistas significativas na personalização de modelos de difusão. Métodos convencionais sem ajuste principalmente codificam várias imagens de referência pela média de seus embeddings de imagem como condição de injeção, mas tal operação independente de imagem não pode interagir entre as imagens para capturar elementos visuais consistentes dentro de múltiplas referências. Embora a adaptação de baixa patente baseada em ajuste (LoRA) possa extrair efetivamente elementos consistentes dentro de várias imagens durante o processo de treinamento, ela exige ajustes específicos para cada grupo de imagens distintas. Este artigo apresenta o EasyRef, um novo método de adaptação plug-and-play que permite que modelos de difusão sejam condicionados a várias imagens de referência e à instrução de texto. Para explorar efetivamente elementos visuais consistentes dentro de várias imagens, aproveitamos as capacidades de compreensão de múltiplas imagens e de seguir instruções do modelo de linguagem multimodal grande (MLLM), instruindo-o a capturar elementos visuais consistentes com base na instrução. Além disso, injetar as representações do MLLM no processo de difusão por meio de adaptadores pode facilmente generalizar para domínios não vistos, minerando os elementos visuais consistentes dentro de dados não vistos. Para mitigar custos computacionais e aprimorar a preservação de detalhes refinados, introduzimos uma estratégia eficiente de agregação de referência e um esquema de treinamento progressivo. Por fim, apresentamos o MRBench, um novo benchmark de geração de imagens de múltiplas referências. Resultados experimentais demonstram que o EasyRef supera tanto métodos sem ajuste como o IP-Adapter quanto métodos baseados em ajuste como o LoRA, alcançando qualidade estética superior e generalização robusta de zero-shot em diversos domínios.

English

Significant achievements in personalization of diffusion models have been witnessed. Conventional tuning-free methods mostly encode multiple reference images by averaging their image embeddings as the injection condition, but such an image-independent operation cannot perform interaction among images to capture consistent visual elements within multiple references. Although the tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent elements within multiple images through the training process, it necessitates specific finetuning for each distinct image group. This paper introduces EasyRef, a novel plug-and-play adaptation method that enables diffusion models to be conditioned on multiple reference images and the text prompt. To effectively exploit consistent visual elements within multiple images, we leverage the multi-image comprehension and instruction-following capabilities of the multimodal large language model (MLLM), prompting it to capture consistent visual elements based on the instruction. Besides, injecting the MLLM's representations into the diffusion process through adapters can easily generalize to unseen domains, mining the consistent visual elements within unseen data. To mitigate computational costs and enhance fine-grained detail preservation, we introduce an efficient reference aggregation strategy and a progressive training scheme. Finally, we introduce MRBench, a new multi-reference image generation benchmark. Experimental results demonstrate EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based methods like LoRA, achieving superior aesthetic quality and robust zero-shot generalization across diverse domains.

EasyRef: Referência de Imagem em Grupo Omni-Generalizada para Modelos de Difusão via Multimodal LLM

EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

Resumo

Support