EasyRef: Omni-gegeneraliseerde groepsafbeeldingsreferentie voor diffusiemodellen via multimodale LLM.
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM
December 12, 2024
Auteurs: Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li
cs.AI
Samenvatting
Er zijn significante prestaties geboekt op het gebied van personalisatie van diffusiemodellen. Traditionele afstemmingsvrije methoden coderen meestal meerdere referentieafbeeldingen door hun afbeeldingsembeddings te gemiddelen als injectieconditie, maar een dergelijke afbeelding-onafhankelijke bewerking kan geen interactie tussen afbeeldingen uitvoeren om consistente visuele elementen binnen meerdere referenties vast te leggen. Hoewel de afstemmingsgebaseerde Low-Rank Adaptation (LoRA) effectief consistente elementen binnen meerdere afbeeldingen kan extraheren tijdens het trainingsproces, vereist het specifieke finetuning voor elke afzonderlijke afbeeldingsgroep. Dit artikel introduceert EasyRef, een nieuw plug-and-play aanpassingsmethode die diffusiemodellen in staat stelt geconditioneerd te worden door meerdere referentieafbeeldingen en de tekstprompt. Om effectief consistente visuele elementen binnen meerdere afbeeldingen te benutten, maken we gebruik van de multimodale grote taalmodel (MLLM) voor multi-afbeelding begrip en instructievolgcapaciteiten, waarbij het wordt aangespoord om consistente visuele elementen vast te leggen op basis van de instructie. Bovendien kan het injecteren van de representaties van de MLLM in het diffusieproces via adapters gemakkelijk generaliseren naar ongeziene domeinen, waarbij de consistente visuele elementen binnen ongeziene gegevens worden geëxploiteerd. Om de computationele kosten te verminderen en de fijnkorrelige detailbehoud te verbeteren, introduceren we een efficiënte referentie-aggregatiestrategie en een progressief trainingsplan. Ten slotte introduceren we MRBench, een nieuwe benchmark voor het genereren van multi-referentieafbeeldingen. Experimentele resultaten tonen aan dat EasyRef zowel afstemmingsvrije methoden zoals IP-Adapter als afstemmingsgebaseerde methoden zoals LoRA overtreft, met superieure esthetische kwaliteit en robuuste zero-shot generalisatie over diverse domeinen.
English
Significant achievements in personalization of diffusion models have been
witnessed. Conventional tuning-free methods mostly encode multiple reference
images by averaging their image embeddings as the injection condition, but such
an image-independent operation cannot perform interaction among images to
capture consistent visual elements within multiple references. Although the
tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent
elements within multiple images through the training process, it necessitates
specific finetuning for each distinct image group. This paper introduces
EasyRef, a novel plug-and-play adaptation method that enables diffusion models
to be conditioned on multiple reference images and the text prompt. To
effectively exploit consistent visual elements within multiple images, we
leverage the multi-image comprehension and instruction-following capabilities
of the multimodal large language model (MLLM), prompting it to capture
consistent visual elements based on the instruction. Besides, injecting the
MLLM's representations into the diffusion process through adapters can easily
generalize to unseen domains, mining the consistent visual elements within
unseen data. To mitigate computational costs and enhance fine-grained detail
preservation, we introduce an efficient reference aggregation strategy and a
progressive training scheme. Finally, we introduce MRBench, a new
multi-reference image generation benchmark. Experimental results demonstrate
EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based
methods like LoRA, achieving superior aesthetic quality and robust zero-shot
generalization across diverse domains.