Composição Multi-LoRA para Geração de Imagens

Resumo

A Adaptação de Baixa Ordem (LoRA) é amplamente utilizada em modelos de texto para imagem para a renderização precisa de elementos específicos, como personagens distintos ou estilos únicos em imagens geradas. No entanto, os métodos existentes enfrentam desafios na composição eficaz de múltiplas LoRAs, especialmente à medida que o número de LoRAs a serem integradas aumenta, dificultando assim a criação de imagens complexas. Neste artigo, estudamos a composição de múltiplas LoRAs através de uma perspectiva centrada na decodificação. Apresentamos dois métodos que não requerem treinamento: o LoRA Switch, que alterna entre diferentes LoRAs em cada etapa de remoção de ruído, e o LoRA Composite, que incorpora simultaneamente todas as LoRAs para orientar uma síntese de imagem mais coesa. Para avaliar as abordagens propostas, estabelecemos o ComposLoRA, um novo e abrangente ambiente de teste como parte desta pesquisa. Ele apresenta uma ampla gama de categorias de LoRA com 480 conjuntos de composição. Utilizando um framework de avaliação baseado no GPT-4V, nossos resultados demonstram uma clara melhoria no desempenho com nossos métodos em relação à linha de base prevalente, particularmente evidente ao aumentar o número de LoRAs em uma composição.

English

Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models for the accurate rendition of specific elements like distinct characters or unique styles in generated images. Nonetheless, existing methods face challenges in effectively composing multiple LoRAs, especially as the number of LoRAs to be integrated grows, thus hindering the creation of complex imagery. In this paper, we study multi-LoRA composition through a decoding-centric perspective. We present two training-free methods: LoRA Switch, which alternates between different LoRAs at each denoising step, and LoRA Composite, which simultaneously incorporates all LoRAs to guide more cohesive image synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new comprehensive testbed as part of this research. It features a diverse range of LoRA categories with 480 composition sets. Utilizing an evaluation framework based on GPT-4V, our findings demonstrate a clear improvement in performance with our methods over the prevalent baseline, particularly evident when increasing the number of LoRAs in a composition.

Composição Multi-LoRA para Geração de Imagens

Multi-LoRA Composition for Image Generation

Resumo

Support