Composição de LoRA Multi-Conceito Livre de Treinamento com Ponderação Sensível ao Prompt

Resumo

A Adaptação de Baixo Posto (LoRA) possibilita com sucesso a personalização na geração de texto para imagem ao adaptar modelos de difusão pré-treinados a conceitos e estilos visuais específicos. No entanto, estender tais modelos para a personalização de múltiplos conceitos continua desafiador. A combinação ingênua de múltiplos pesos LoRA ou de suas saídas frequentemente leva à interferência entre conceitos, resultando em qualidade visual degradada e menor fidelidade às imagens de referência de conceitos individuais. Este artigo propõe uma abordagem simples, porém eficaz, para a personalização de múltiplos conceitos, combinando de forma otimizada as saídas de múltiplos módulos LoRA. Aproveitamos a importância relativa de cada conceito durante a geração, inferida a partir de seus tokens de prompt correspondentes, e introduzimos dois métodos, W-Switch e W-Composite, que empregam uma estratégia de ponderação de importância ciente do prompt, na qual cada LoRA é ponderado de acordo com a influência semântica de suas palavras-gatilho no prompt alvo. Além disso, estendemos as métricas de avaliação quantitativa existentes ao propor uma nova estrutura de avaliação de similaridade baseada em imagem, que avalia a fidelidade da imagem e a preservação da identidade por meio de comparações entre imagens de referência do mundo real e regiões de conceitos segmentadas automaticamente a partir das imagens geradas. Avaliamos nossa abordagem no ambiente de teste ComposLoRA e demonstramos melhorias consistentes em relação aos métodos de última geração existentes em termos de qualidade visual, preservação de identidade e composicionalidade. Avaliações qualitativas, incluindo uma avaliação baseada em Modelo de Linguagem de Grande Escala (LLM) e um estudo de usuário, validam ainda mais a eficácia dos métodos propostos e se alinham com as novas métricas quantitativas baseadas em imagem introduzidas. Nosso código está disponível em https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition.

English

Low-Rank Adaptation (LoRA) successfully enables personalization in text-to-image generation by adapting pre-trained diffusion models to specific visual concepts and styles. However, extending such models to multi-concept customization remains challenging. Naively combining multiple LoRA weights or their outputs often leads to interference among concepts, resulting in degraded visual quality and reduced fidelity to the reference images of individual concepts. This paper proposes a simple yet effective approach for multi-concept customization by optimally combining the outputs of multiple LoRA modules. We leverage the relative importance of each concept during generation, as inferred from its corresponding prompt tokens and introduce two methods, W-Switch and W-Composite, that employ a prompt-aware importance weighting strategy in which each LoRA is weighted according to the semantic influence of its trigger words in the target prompt. In addition, we extend existing quantitative evaluation metrics by proposing a new image-based similarity evaluation framework that assesses image fidelity and identity preservation through comparisons between real-world reference images and automatically segmented concept regions from generated images. We evaluate our approach on the ComposLoRA testbed and demonstrate consistent improvements over existing state-of-the-art methods in terms of visual quality, identity preservation and compositionality. Qualitative evaluations, including a Large Language Model (LLM) based assessment and a user study, further validate the effectiveness of the proposed methods and align with the newly introduced quantitative image-based metrics. Our code is available at https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition.