Training-vrije multi-concept LoRA-compositie met prompt-bewuste weging

Samenvatting

Lage-Rang Adaptatie (LoRA) maakt personalisatie in tekst-naar-beeld generatie succesvol mogelijk door vooraf getrainde diffusiemodellen aan te passen aan specifieke visuele concepten en stijlen. Het uitbreiden van dergelijke modellen naar multi-concept aanpassing blijft echter lastig. Het naïef combineren van meerdere LoRA-gewichten of hun uitvoer leidt vaak tot interferentie tussen de concepten, wat resulteert in verminderde visuele kwaliteit en lagere getrouwheid aan de referentiebeelden van individuele concepten. Dit artikel stelt een eenvoudige maar effectieve aanpak voor voor multi-concept aanpassing door de uitvoer van meerdere LoRA-modules optimaal te combineren. We benutten het relatieve belang van elk concept tijdens het genereren, afgeleid van de bijbehorende prompt-tokens, en introduceren twee methoden, W-Switch en W-Composite, die een promptbewuste strategie voor gewichtstoekenning gebruiken, waarbij elke LoRA wordt gewogen op basis van de semantische invloed van de triggerwoorden in de doelprompt. Daarnaast breiden we bestaande kwantitatieve evaluatiemetingen uit door een nieuw op beelden gebaseerd evaluatiekader voor gelijkenis voor te stellen, dat de beeldgetrouwheid en identiteitsbehoud beoordeelt door vergelijkingen tussen echte referentiebeelden en automatisch gesegmenteerde conceptregio's uit gegenereerde beelden. We evalueren onze aanpak op de ComposLoRA-testomgeving en tonen consistente verbeteringen ten opzichte van bestaande state-of-the-art methoden op het gebied van visuele kwaliteit, identiteitsbehoud en compositie. Kwalitatieve evaluaties, waaronder een op een groot taalmodel (LLM) gebaseerde beoordeling en een gebruikersstudie, bevestigen de effectiviteit van de voorgestelde methoden en komen overeen met de nieuw geïntroduceerde kwantitatieve op beelden gebaseerde metrieken. Onze code is beschikbaar op https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition.

English

Low-Rank Adaptation (LoRA) successfully enables personalization in text-to-image generation by adapting pre-trained diffusion models to specific visual concepts and styles. However, extending such models to multi-concept customization remains challenging. Naively combining multiple LoRA weights or their outputs often leads to interference among concepts, resulting in degraded visual quality and reduced fidelity to the reference images of individual concepts. This paper proposes a simple yet effective approach for multi-concept customization by optimally combining the outputs of multiple LoRA modules. We leverage the relative importance of each concept during generation, as inferred from its corresponding prompt tokens and introduce two methods, W-Switch and W-Composite, that employ a prompt-aware importance weighting strategy in which each LoRA is weighted according to the semantic influence of its trigger words in the target prompt. In addition, we extend existing quantitative evaluation metrics by proposing a new image-based similarity evaluation framework that assesses image fidelity and identity preservation through comparisons between real-world reference images and automatically segmented concept regions from generated images. We evaluate our approach on the ComposLoRA testbed and demonstrate consistent improvements over existing state-of-the-art methods in terms of visual quality, identity preservation and compositionality. Qualitative evaluations, including a Large Language Model (LLM) based assessment and a user study, further validate the effectiveness of the proposed methods and align with the newly introduced quantitative image-based metrics. Our code is available at https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition.