EasyRef: Referencia de Imagen de Grupo Omni-Generalizada para Modelos de Difusión a través de LLM Multimodal
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM
December 12, 2024
Autores: Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li
cs.AI
Resumen
Se han presenciado logros significativos en la personalización de modelos de difusión. Los métodos convencionales sin ajuste mayormente codifican múltiples imágenes de referencia promediando sus incrustaciones de imagen como condición de inyección, pero tal operación independiente de la imagen no puede interactuar entre imágenes para capturar elementos visuales consistentes dentro de múltiples referencias. Aunque la Adaptación de Bajo Rango (LoRA) basada en ajuste puede extraer de manera efectiva elementos consistentes dentro de múltiples imágenes a través del proceso de entrenamiento, requiere un ajuste fino específico para cada grupo de imágenes distinto. Este documento presenta EasyRef, un novedoso método de adaptación plug-and-play que permite a los modelos de difusión condicionarse en múltiples imágenes de referencia y la indicación de texto. Para explotar efectivamente elementos visuales consistentes dentro de múltiples imágenes, aprovechamos las capacidades de comprensión de imágenes múltiples y seguimiento de instrucciones del modelo de lenguaje multimodal grande (MLLM), incitándolo a capturar elementos visuales consistentes basados en la instrucción. Además, inyectar las representaciones del MLLM en el proceso de difusión a través de adaptadores puede generalizarse fácilmente a dominios no vistos, extrayendo los elementos visuales consistentes dentro de datos no vistos. Para mitigar costos computacionales y mejorar la preservación de detalles finos, introducimos una estrategia eficiente de agregación de referencias y un esquema de entrenamiento progresivo. Finalmente, presentamos MRBench, un nuevo banco de pruebas de generación de imágenes de múltiples referencias. Los resultados experimentales demuestran que EasyRef supera tanto a métodos sin ajuste como IP-Adapter y a métodos basados en ajuste como LoRA, logrando una calidad estética superior y una generalización de cero disparos robusta en diversos dominios.
English
Significant achievements in personalization of diffusion models have been
witnessed. Conventional tuning-free methods mostly encode multiple reference
images by averaging their image embeddings as the injection condition, but such
an image-independent operation cannot perform interaction among images to
capture consistent visual elements within multiple references. Although the
tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent
elements within multiple images through the training process, it necessitates
specific finetuning for each distinct image group. This paper introduces
EasyRef, a novel plug-and-play adaptation method that enables diffusion models
to be conditioned on multiple reference images and the text prompt. To
effectively exploit consistent visual elements within multiple images, we
leverage the multi-image comprehension and instruction-following capabilities
of the multimodal large language model (MLLM), prompting it to capture
consistent visual elements based on the instruction. Besides, injecting the
MLLM's representations into the diffusion process through adapters can easily
generalize to unseen domains, mining the consistent visual elements within
unseen data. To mitigate computational costs and enhance fine-grained detail
preservation, we introduce an efficient reference aggregation strategy and a
progressive training scheme. Finally, we introduce MRBench, a new
multi-reference image generation benchmark. Experimental results demonstrate
EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based
methods like LoRA, achieving superior aesthetic quality and robust zero-shot
generalization across diverse domains.Summary
AI-Generated Summary