Composizione Multi-LoRA per la Generazione di Immagini

Abstract

La Low-Rank Adaptation (LoRA) è ampiamente utilizzata nei modelli testo-immagine per la resa accurata di elementi specifici come personaggi distinti o stili unici nelle immagini generate. Tuttavia, i metodi esistenti incontrano difficoltà nel comporre efficacemente più LoRA, specialmente quando aumenta il numero di LoRA da integrare, ostacolando così la creazione di immagini complesse. In questo articolo, studiamo la composizione multi-LoRA attraverso una prospettiva centrata sul decoding. Presentiamo due metodi che non richiedono addestramento: LoRA Switch, che alterna tra diverse LoRA a ogni passo di denoising, e LoRA Composite, che incorpora simultaneamente tutte le LoRA per guidare una sintesi di immagini più coesa. Per valutare i metodi proposti, abbiamo istituito ComposLoRA, un nuovo e completo banco di prova come parte di questa ricerca. Esso presenta una gamma diversificata di categorie di LoRA con 480 set di composizione. Utilizzando un framework di valutazione basato su GPT-4V, i nostri risultati dimostrano un chiaro miglioramento delle prestazioni con i nostri metodi rispetto alla baseline prevalente, particolarmente evidente quando si aumenta il numero di LoRA in una composizione.

English

Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models for the accurate rendition of specific elements like distinct characters or unique styles in generated images. Nonetheless, existing methods face challenges in effectively composing multiple LoRAs, especially as the number of LoRAs to be integrated grows, thus hindering the creation of complex imagery. In this paper, we study multi-LoRA composition through a decoding-centric perspective. We present two training-free methods: LoRA Switch, which alternates between different LoRAs at each denoising step, and LoRA Composite, which simultaneously incorporates all LoRAs to guide more cohesive image synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new comprehensive testbed as part of this research. It features a diverse range of LoRA categories with 480 composition sets. Utilizing an evaluation framework based on GPT-4V, our findings demonstrate a clear improvement in performance with our methods over the prevalent baseline, particularly evident when increasing the number of LoRAs in a composition.

Composizione Multi-LoRA per la Generazione di Immagini

Multi-LoRA Composition for Image Generation

Abstract

Support