EasyRef: Omni-gegeneraliseerde groepsafbeeldingsreferentie voor diffusiemodellen via multimodale LLM.

Samenvatting

Er zijn significante prestaties geboekt op het gebied van personalisatie van diffusiemodellen. Traditionele afstemmingsvrije methoden coderen meestal meerdere referentieafbeeldingen door hun afbeeldingsembeddings te gemiddelen als injectieconditie, maar een dergelijke afbeelding-onafhankelijke bewerking kan geen interactie tussen afbeeldingen uitvoeren om consistente visuele elementen binnen meerdere referenties vast te leggen. Hoewel de afstemmingsgebaseerde Low-Rank Adaptation (LoRA) effectief consistente elementen binnen meerdere afbeeldingen kan extraheren tijdens het trainingsproces, vereist het specifieke finetuning voor elke afzonderlijke afbeeldingsgroep. Dit artikel introduceert EasyRef, een nieuw plug-and-play aanpassingsmethode die diffusiemodellen in staat stelt geconditioneerd te worden door meerdere referentieafbeeldingen en de tekstprompt. Om effectief consistente visuele elementen binnen meerdere afbeeldingen te benutten, maken we gebruik van de multimodale grote taalmodel (MLLM) voor multi-afbeelding begrip en instructievolgcapaciteiten, waarbij het wordt aangespoord om consistente visuele elementen vast te leggen op basis van de instructie. Bovendien kan het injecteren van de representaties van de MLLM in het diffusieproces via adapters gemakkelijk generaliseren naar ongeziene domeinen, waarbij de consistente visuele elementen binnen ongeziene gegevens worden geëxploiteerd. Om de computationele kosten te verminderen en de fijnkorrelige detailbehoud te verbeteren, introduceren we een efficiënte referentie-aggregatiestrategie en een progressief trainingsplan. Ten slotte introduceren we MRBench, een nieuwe benchmark voor het genereren van multi-referentieafbeeldingen. Experimentele resultaten tonen aan dat EasyRef zowel afstemmingsvrije methoden zoals IP-Adapter als afstemmingsgebaseerde methoden zoals LoRA overtreft, met superieure esthetische kwaliteit en robuuste zero-shot generalisatie over diverse domeinen.

English

Significant achievements in personalization of diffusion models have been witnessed. Conventional tuning-free methods mostly encode multiple reference images by averaging their image embeddings as the injection condition, but such an image-independent operation cannot perform interaction among images to capture consistent visual elements within multiple references. Although the tuning-based Low-Rank Adaptation (LoRA) can effectively extract consistent elements within multiple images through the training process, it necessitates specific finetuning for each distinct image group. This paper introduces EasyRef, a novel plug-and-play adaptation method that enables diffusion models to be conditioned on multiple reference images and the text prompt. To effectively exploit consistent visual elements within multiple images, we leverage the multi-image comprehension and instruction-following capabilities of the multimodal large language model (MLLM), prompting it to capture consistent visual elements based on the instruction. Besides, injecting the MLLM's representations into the diffusion process through adapters can easily generalize to unseen domains, mining the consistent visual elements within unseen data. To mitigate computational costs and enhance fine-grained detail preservation, we introduce an efficient reference aggregation strategy and a progressive training scheme. Finally, we introduce MRBench, a new multi-reference image generation benchmark. Experimental results demonstrate EasyRef surpasses both tuning-free methods like IP-Adapter and tuning-based methods like LoRA, achieving superior aesthetic quality and robust zero-shot generalization across diverse domains.

EasyRef: Omni-gegeneraliseerde groepsafbeeldingsreferentie voor diffusiemodellen via multimodale LLM.

EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

Samenvatting

Support