Composition Multi-LoRA pour la génération d'images

papers.abstract

L'adaptation à faible rang (LoRA) est largement utilisée dans les modèles de génération d'images à partir de texte pour la représentation précise d'éléments spécifiques tels que des personnages distincts ou des styles uniques dans les images générées. Cependant, les méthodes existantes rencontrent des difficultés à composer efficacement plusieurs LoRAs, en particulier lorsque le nombre de LoRAs à intégrer augmente, ce qui entrave la création d'images complexes. Dans cet article, nous étudions la composition multi-LoRA à travers une perspective centrée sur le décodage. Nous présentons deux méthodes ne nécessitant pas d'entraînement : LoRA Switch, qui alterne entre différentes LoRAs à chaque étape de débruitage, et LoRA Composite, qui intègre simultanément toutes les LoRAs pour guider une synthèse d'image plus cohérente. Pour évaluer les approches proposées, nous établissons ComposLoRA, un nouveau banc d'essai complet dans le cadre de cette recherche. Il comprend une gamme variée de catégories de LoRAs avec 480 ensembles de composition. En utilisant un cadre d'évaluation basé sur GPT-4V, nos résultats montrent une nette amélioration des performances avec nos méthodes par rapport à la base de référence courante, particulièrement évidente lors de l'augmentation du nombre de LoRAs dans une composition.

English

Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models for the accurate rendition of specific elements like distinct characters or unique styles in generated images. Nonetheless, existing methods face challenges in effectively composing multiple LoRAs, especially as the number of LoRAs to be integrated grows, thus hindering the creation of complex imagery. In this paper, we study multi-LoRA composition through a decoding-centric perspective. We present two training-free methods: LoRA Switch, which alternates between different LoRAs at each denoising step, and LoRA Composite, which simultaneously incorporates all LoRAs to guide more cohesive image synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new comprehensive testbed as part of this research. It features a diverse range of LoRA categories with 480 composition sets. Utilizing an evaluation framework based on GPT-4V, our findings demonstrate a clear improvement in performance with our methods over the prevalent baseline, particularly evident when increasing the number of LoRAs in a composition.

Composition Multi-LoRA pour la génération d'images

Multi-LoRA Composition for Image Generation

papers.abstract

Support