ChatPaper.aiChatPaper

EasyRef: Referencia de Imagen de Grupo Omni-Generalizada para Modelos de Difusión a través de LLM Multimodal

EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

December 12, 2024
Autores: Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li
cs.AI

Resumen

Se han presenciado logros significativos en la personalización de modelos de difusión. Los métodos convencionales sin ajuste mayormente codifican múltiples imágenes de referencia promediando sus incrustaciones de imagen como condición de inyección, pero tal operación independiente de la imagen no puede interactuar entre imágenes para capturar elementos visuales consistentes dentro de múltiples referencias. Aunque la Adaptación de Bajo Rango (LoRA) basada en ajuste puede extraer de manera efectiva elementos consistentes dentro de múltiples imágenes a través del proceso de entrenamiento, requiere un ajuste fino específico para cada grupo de imágenes distinto. Este documento presenta EasyRef, un novedoso método de adaptación plug-and-play que permite a los modelos de difusión condicionarse en múltiples imágenes de referencia y la indicación de texto. Para explotar efectivamente elementos visuales consistentes dentro de múltiples imágenes, aprovechamos las capacidades de comprensión de imágenes múltiples y seguimiento de instrucciones del modelo de lenguaje multimodal grande (MLLM), incitándolo a capturar elementos visuales consistentes basados en la instrucción. Además, inyectar las representaciones del MLLM en el proceso de difusión a través de adaptadores puede generalizarse fácilmente a dominios no vistos, extrayendo los elementos visuales consistentes dentro de datos no vistos. Para mitigar costos computacionales y mejorar la preservación de detalles finos, introducimos una estrategia eficiente de agregación de referencias y un esquema de entrenamiento progresivo. Finalmente, presentamos MRBench, un nuevo banco de pruebas de generación de imágenes de múltiples referencias. Los resultados experimentales demuestran que EasyRef supera tanto a métodos sin ajuste como IP-Adapter y a métodos basados en ajuste como LoRA, logrando una calidad estética superior y una generalización de cero disparos robusta en diversos dominios.
English
Significant achievements in personalization of diffusion models have been witnessed. Conventional tuning-free methods mostly encode multiple reference images by averaging their image embeddings as the injection condition, but such an image-independent operation cannot perform interaction among images to capture consistent visual elements within multiple references. Although the tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent elements within multiple images through the training process, it necessitates specific finetuning for each distinct image group. This paper introduces EasyRef, a novel plug-and-play adaptation method that enables diffusion models to be conditioned on multiple reference images and the text prompt. To effectively exploit consistent visual elements within multiple images, we leverage the multi-image comprehension and instruction-following capabilities of the multimodal large language model (MLLM), prompting it to capture consistent visual elements based on the instruction. Besides, injecting the MLLM's representations into the diffusion process through adapters can easily generalize to unseen domains, mining the consistent visual elements within unseen data. To mitigate computational costs and enhance fine-grained detail preservation, we introduce an efficient reference aggregation strategy and a progressive training scheme. Finally, we introduce MRBench, a new multi-reference image generation benchmark. Experimental results demonstrate EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based methods like LoRA, achieving superior aesthetic quality and robust zero-shot generalization across diverse domains.

Summary

AI-Generated Summary

PDF213December 13, 2024