LoRA.rar: Het leren samenvoegen van LoRA's via Hypernetwerken voor Beeldgeneratie onderhevig aan Onderwerp-Stijl.
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
December 6, 2024
Auteurs: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
cs.AI
Samenvatting
Recente ontwikkelingen in beeldgeneratiemodellen hebben gepersonaliseerde beeldcreatie mogelijk gemaakt met zowel door de gebruiker gedefinieerde onderwerpen (inhoud) als stijlen. Eerdere werken bereikten personalisatie door overeenkomstige lage-rangschikking aanpassingsparameters (LoRA's) samen te voegen via optimalisatiegebaseerde methoden, die rekenkundig veeleisend zijn en ongeschikt voor realtime gebruik op bronbeperkte apparaten zoals smartphones. Om dit aan te pakken, introduceren we LoRA.rar, een methode die niet alleen de beeldkwaliteit verbetert, maar ook een opmerkelijke versnelling van meer dan 4000 keer bereikt in het samenvoegingsproces. LoRA.rar traint een hypernetwerk voor op een divers set van inhoud-stijl LoRA-paren, waarbij een efficiënte samenvoegingsstrategie wordt geleerd die generaliseert naar nieuwe, ongeziene inhoud-stijl paren, waardoor snelle, hoogwaardige personalisatie mogelijk is. Bovendien identificeren we beperkingen in bestaande evaluatiemetrics voor inhoud-stijlkwaliteit en stellen we een nieuw protocol voor met behulp van multimodale grote taalmodellen (MLLM) voor een nauwkeurigere beoordeling. Onze methode presteert aanzienlijk beter dan de huidige stand van de techniek op zowel inhoud als stijlfideliteit, zoals bevestigd door MLLM-beoordelingen en menselijke evaluaties.
English
Recent advancements in image generation models have enabled personalized
image creation with both user-defined subjects (content) and styles. Prior
works achieved personalization by merging corresponding low-rank adaptation
parameters (LoRAs) through optimization-based methods, which are
computationally demanding and unsuitable for real-time use on
resource-constrained devices like smartphones. To address this, we introduce
LoRA.rar, a method that not only improves image quality but also achieves a
remarkable speedup of over 4000times in the merging process. LoRA.rar
pre-trains a hypernetwork on a diverse set of content-style LoRA pairs,
learning an efficient merging strategy that generalizes to new, unseen
content-style pairs, enabling fast, high-quality personalization. Moreover, we
identify limitations in existing evaluation metrics for content-style quality
and propose a new protocol using multimodal large language models (MLLM) for
more accurate assessment. Our method significantly outperforms the current
state of the art in both content and style fidelity, as validated by MLLM
assessments and human evaluations.