ChatPaper.aiChatPaper

Multi-LoRA-samenstelling voor beeldgeneratie

Multi-LoRA Composition for Image Generation

February 26, 2024
Auteurs: Ming Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen
cs.AI

Samenvatting

Low-Rank Adaptation (LoRA) wordt uitgebreid gebruikt in tekst-naar-beeldmodellen voor de nauwkeurige weergave van specifieke elementen zoals onderscheidende personages of unieke stijlen in gegenereerde afbeeldingen. Desalniettemin hebben bestaande methoden moeite met het effectief combineren van meerdere LoRA's, vooral wanneer het aantal te integreren LoRA's toeneemt, wat de creatie van complexe beelden belemmert. In dit artikel bestuderen we multi-LoRA-compositie vanuit een decoderingsgericht perspectief. We presenteren twee trainingsvrije methoden: LoRA Switch, die afwisselt tussen verschillende LoRA's bij elke denoisingstap, en LoRA Composite, die alle LoRA's gelijktijdig incorporeert om een meer samenhangende beeld synthese te begeleiden. Om de voorgestelde benaderingen te evalueren, hebben we ComposLoRA opgezet, een nieuwe uitgebreide testomgeving als onderdeel van dit onderzoek. Deze omvat een diverse reeks LoRA-categorieën met 480 compositiesets. Door gebruik te maken van een evaluatieraamwerk gebaseerd op GPT-4V, tonen onze bevindingen een duidelijke verbetering in prestaties met onze methoden ten opzichte van de gangbare baseline, wat vooral duidelijk wordt bij het verhogen van het aantal LoRA's in een compositie.
English
Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models for the accurate rendition of specific elements like distinct characters or unique styles in generated images. Nonetheless, existing methods face challenges in effectively composing multiple LoRAs, especially as the number of LoRAs to be integrated grows, thus hindering the creation of complex imagery. In this paper, we study multi-LoRA composition through a decoding-centric perspective. We present two training-free methods: LoRA Switch, which alternates between different LoRAs at each denoising step, and LoRA Composite, which simultaneously incorporates all LoRAs to guide more cohesive image synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new comprehensive testbed as part of this research. It features a diverse range of LoRA categories with 480 composition sets. Utilizing an evaluation framework based on GPT-4V, our findings demonstrate a clear improvement in performance with our methods over the prevalent baseline, particularly evident when increasing the number of LoRAs in a composition.
PDF320December 15, 2024