Composizione Multi-LoRA per la Generazione di Immagini
Multi-LoRA Composition for Image Generation
February 26, 2024
Autori: Ming Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen
cs.AI
Abstract
La Low-Rank Adaptation (LoRA) è ampiamente utilizzata nei modelli testo-immagine per la resa accurata di elementi specifici come personaggi distinti o stili unici nelle immagini generate. Tuttavia, i metodi esistenti incontrano difficoltà nel comporre efficacemente più LoRA, specialmente quando aumenta il numero di LoRA da integrare, ostacolando così la creazione di immagini complesse. In questo articolo, studiamo la composizione multi-LoRA attraverso una prospettiva centrata sul decoding. Presentiamo due metodi che non richiedono addestramento: LoRA Switch, che alterna tra diverse LoRA a ogni passo di denoising, e LoRA Composite, che incorpora simultaneamente tutte le LoRA per guidare una sintesi di immagini più coesa. Per valutare i metodi proposti, abbiamo istituito ComposLoRA, un nuovo e completo banco di prova come parte di questa ricerca. Esso presenta una gamma diversificata di categorie di LoRA con 480 set di composizione. Utilizzando un framework di valutazione basato su GPT-4V, i nostri risultati dimostrano un chiaro miglioramento delle prestazioni con i nostri metodi rispetto alla baseline prevalente, particolarmente evidente quando si aumenta il numero di LoRA in una composizione.
English
Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models
for the accurate rendition of specific elements like distinct characters or
unique styles in generated images. Nonetheless, existing methods face
challenges in effectively composing multiple LoRAs, especially as the number of
LoRAs to be integrated grows, thus hindering the creation of complex imagery.
In this paper, we study multi-LoRA composition through a decoding-centric
perspective. We present two training-free methods: LoRA Switch, which
alternates between different LoRAs at each denoising step, and LoRA Composite,
which simultaneously incorporates all LoRAs to guide more cohesive image
synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new
comprehensive testbed as part of this research. It features a diverse range of
LoRA categories with 480 composition sets. Utilizing an evaluation framework
based on GPT-4V, our findings demonstrate a clear improvement in performance
with our methods over the prevalent baseline, particularly evident when
increasing the number of LoRAs in a composition.