K-LoRA: Desbloqueando a Fusão Sem Treinamento de Qualquer Assunto e Estilo LoRAs
K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs
February 25, 2025
Autores: Ziheng Ouyang, Zhen Li, Qibin Hou
cs.AI
Resumo
Estudos recentes exploraram a combinação de diferentes LoRAs para gerar conjuntamente estilo e conteúdo aprendidos. No entanto, os métodos existentes ou falham em preservar efetivamente tanto o sujeito original quanto o estilo simultaneamente ou exigem treinamento adicional. Neste artigo, argumentamos que as propriedades intrínsecas do LoRA podem guiar efetivamente os modelos de difusão na fusão de sujeito e estilo aprendidos. Com base nessa percepção, propomos o K-LoRA, uma abordagem simples, porém eficaz, de fusão de LoRA sem necessidade de treinamento. Em cada camada de atenção, o K-LoRA compara os elementos Top-K em cada LoRA a ser fundido, determinando qual LoRA selecionar para uma fusão ideal. Esse mecanismo de seleção garante que as características mais representativas tanto do sujeito quanto do estilo sejam retidas durante o processo de fusão, equilibrando efetivamente suas contribuições. Resultados experimentais demonstram que o método proposto integra efetivamente as informações de sujeito e estilo aprendidas pelos LoRAs originais, superando abordagens baseadas em treinamento de última geração tanto em resultados qualitativos quanto quantitativos.
English
Recent studies have explored combining different LoRAs to jointly generate
learned style and content. However, existing methods either fail to effectively
preserve both the original subject and style simultaneously or require
additional training. In this paper, we argue that the intrinsic properties of
LoRA can effectively guide diffusion models in merging learned subject and
style. Building on this insight, we propose K-LoRA, a simple yet effective
training-free LoRA fusion approach. In each attention layer, K-LoRA compares
the Top-K elements in each LoRA to be fused, determining which LoRA to select
for optimal fusion. This selection mechanism ensures that the most
representative features of both subject and style are retained during the
fusion process, effectively balancing their contributions. Experimental results
demonstrate that the proposed method effectively integrates the subject and
style information learned by the original LoRAs, outperforming state-of-the-art
training-based approaches in both qualitative and quantitative results.Summary
AI-Generated Summary