ChatPaper.aiChatPaper

Multi-LoRA-Komposition für die Bildgenerierung

Multi-LoRA Composition for Image Generation

February 26, 2024
Autoren: Ming Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen
cs.AI

Zusammenfassung

Low-Rank Adaptation (LoRA) wird umfassend in Text-zu-Bild-Modellen eingesetzt, um spezifische Elemente wie bestimmte Charaktere oder einzigartige Stile in generierten Bildern präzise darzustellen. Dennoch stehen bestehende Methoden vor Herausforderungen, wenn es darum geht, mehrere LoRAs effektiv zu kombinieren, insbesondere wenn die Anzahl der zu integrierenden LoRAs steigt, was die Erstellung komplexer Bilder erschwert. In dieser Arbeit untersuchen wir die Multi-LoRA-Komposition aus einer dekodierungszentrierten Perspektive. Wir stellen zwei trainingsfreie Methoden vor: LoRA Switch, das zwischen verschiedenen LoRAs bei jedem Denoising-Schritt wechselt, und LoRA Composite, das alle LoRAs gleichzeitig einbezieht, um eine kohärentere Bildsynthese zu ermöglichen. Um die vorgeschlagenen Ansätze zu bewerten, haben wir ComposLoRA, eine neue umfassende Testumgebung, als Teil dieser Forschung etabliert. Sie umfasst eine Vielzahl von LoRA-Kategorien mit 480 Kompositionssätzen. Unter Verwendung eines auf GPT-4V basierenden Bewertungsrahmens zeigen unsere Ergebnisse eine deutliche Leistungssteigerung mit unseren Methoden im Vergleich zum verbreiteten Baseline-Modell, was besonders deutlich wird, wenn die Anzahl der LoRAs in einer Komposition erhöht wird.
English
Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models for the accurate rendition of specific elements like distinct characters or unique styles in generated images. Nonetheless, existing methods face challenges in effectively composing multiple LoRAs, especially as the number of LoRAs to be integrated grows, thus hindering the creation of complex imagery. In this paper, we study multi-LoRA composition through a decoding-centric perspective. We present two training-free methods: LoRA Switch, which alternates between different LoRAs at each denoising step, and LoRA Composite, which simultaneously incorporates all LoRAs to guide more cohesive image synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new comprehensive testbed as part of this research. It features a diverse range of LoRA categories with 480 composition sets. Utilizing an evaluation framework based on GPT-4V, our findings demonstrate a clear improvement in performance with our methods over the prevalent baseline, particularly evident when increasing the number of LoRAs in a composition.
PDF330December 15, 2024