K-LoRA: Desbloqueando la fusión sin entrenamiento de cualquier tema y estilo con LoRAs
K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs
February 25, 2025
Autores: Ziheng Ouyang, Zhen Li, Qibin Hou
cs.AI
Resumen
Estudios recientes han explorado la combinación de diferentes LoRAs para generar conjuntamente estilo y contenido aprendido. Sin embargo, los métodos existentes no logran preservar de manera efectiva tanto el sujeto original como el estilo simultáneamente o requieren entrenamiento adicional. En este artículo, argumentamos que las propiedades intrínsecas de LoRA pueden guiar eficazmente a los modelos de difusión en la fusión de sujeto y estilo aprendidos. Basándonos en esta idea, proponemos K-LoRA, un enfoque de fusión de LoRA simple pero efectivo que no requiere entrenamiento. En cada capa de atención, K-LoRA compara los elementos Top-K en cada LoRA a fusionar, determinando cuál seleccionar para una fusión óptima. Este mecanismo de selección asegura que las características más representativas tanto del sujeto como del estilo se conserven durante el proceso de fusión, equilibrando eficazmente sus contribuciones. Los resultados experimentales demuestran que el método propuesto integra de manera efectiva la información de sujeto y estilo aprendida por los LoRAs originales, superando a los enfoques basados en entrenamiento de última generación tanto en resultados cualitativos como cuantitativos.
English
Recent studies have explored combining different LoRAs to jointly generate
learned style and content. However, existing methods either fail to effectively
preserve both the original subject and style simultaneously or require
additional training. In this paper, we argue that the intrinsic properties of
LoRA can effectively guide diffusion models in merging learned subject and
style. Building on this insight, we propose K-LoRA, a simple yet effective
training-free LoRA fusion approach. In each attention layer, K-LoRA compares
the Top-K elements in each LoRA to be fused, determining which LoRA to select
for optimal fusion. This selection mechanism ensures that the most
representative features of both subject and style are retained during the
fusion process, effectively balancing their contributions. Experimental results
demonstrate that the proposed method effectively integrates the subject and
style information learned by the original LoRAs, outperforming state-of-the-art
training-based approaches in both qualitative and quantitative results.