K-LoRA: Sbloccare la fusione senza addestramento di qualsiasi soggetto e stile con LoRA
K-LoRA: Unlocking Training-Free Fusion of Any Subject and Style LoRAs
February 25, 2025
Autori: Ziheng Ouyang, Zhen Li, Qibin Hou
cs.AI
Abstract
Studi recenti hanno esplorato la combinazione di diversi LoRA per generare congiuntamente stile e contenuto appresi. Tuttavia, i metodi esistenti non riescono a preservare efficacemente sia il soggetto originale che lo stile contemporaneamente o richiedono un addestramento aggiuntivo. In questo articolo, sosteniamo che le proprietà intrinseche del LoRA possono guidare efficacemente i modelli di diffusione nella fusione di soggetto e stile appresi. Basandoci su questa intuizione, proponiamo K-LoRA, un approccio di fusione LoRA semplice ma efficace che non richiede addestramento. In ogni livello di attenzione, K-LoRA confronta gli elementi Top-K in ciascun LoRA da fondere, determinando quale LoRA selezionare per una fusione ottimale. Questo meccanismo di selezione garantisce che le caratteristiche più rappresentative sia del soggetto che dello stile vengano mantenute durante il processo di fusione, bilanciando efficacemente i loro contributi. I risultati sperimentali dimostrano che il metodo proposto integra efficacemente le informazioni sul soggetto e sullo stile apprese dai LoRA originali, superando approcci basati su addestramento all'avanguardia sia nei risultati qualitativi che quantitativi.
English
Recent studies have explored combining different LoRAs to jointly generate
learned style and content. However, existing methods either fail to effectively
preserve both the original subject and style simultaneously or require
additional training. In this paper, we argue that the intrinsic properties of
LoRA can effectively guide diffusion models in merging learned subject and
style. Building on this insight, we propose K-LoRA, a simple yet effective
training-free LoRA fusion approach. In each attention layer, K-LoRA compares
the Top-K elements in each LoRA to be fused, determining which LoRA to select
for optimal fusion. This selection mechanism ensures that the most
representative features of both subject and style are retained during the
fusion process, effectively balancing their contributions. Experimental results
demonstrate that the proposed method effectively integrates the subject and
style information learned by the original LoRAs, outperforming state-of-the-art
training-based approaches in both qualitative and quantitative results.Summary
AI-Generated Summary