LoRA.rar: Lernen, LoRAs über Hypernetzwerke zur subjektstilabhängigen Bildgenerierung zu fusionieren
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
December 6, 2024
Autoren: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
cs.AI
Zusammenfassung
Die jüngsten Fortschritte in Modellen zur Bildgenerierung haben die personalisierte Bildgestaltung mit sowohl benutzerdefinierten Motiven (Inhalten) als auch Stilen ermöglicht. Frühere Arbeiten erreichten Personalisierung, indem sie entsprechende Anpassungsparameter niedriger Rangordnung (LoRAs) durch optimierungsbasierte Methoden fusionierten, die rechenintensiv sind und sich nicht für den Echtzeiteinsatz auf ressourcenbeschränkten Geräten wie Smartphones eignen. Um dies zu lösen, stellen wir LoRA.rar vor, eine Methode, die nicht nur die Bildqualität verbessert, sondern auch eine bemerkenswerte Beschleunigung von über 4000-mal im Fusionierungsprozess erreicht. LoRA.rar trainiert ein Hypernetzwerk anhand einer vielfältigen Reihe von Inhalt-Stil-LoRA-Paaren vor, lernt eine effiziente Fusionierungsstrategie, die auf neue, nicht gesehene Inhalt-Stil-Paare verallgemeinert und eine schnelle, hochwertige Personalisierung ermöglicht. Darüber hinaus identifizieren wir Einschränkungen in bestehenden Bewertungsmetriken für Inhalt-Stil-Qualität und schlagen ein neues Protokoll unter Verwendung multimodaler großer Sprachmodelle (MLLM) für eine genauere Bewertung vor. Unsere Methode übertrifft signifikant den aktuellen Stand der Technik sowohl in Inhalt als auch Stiltreue, wie durch MLLM-Bewertungen und menschliche Bewertungen validiert.
English
Recent advancements in image generation models have enabled personalized
image creation with both user-defined subjects (content) and styles. Prior
works achieved personalization by merging corresponding low-rank adaptation
parameters (LoRAs) through optimization-based methods, which are
computationally demanding and unsuitable for real-time use on
resource-constrained devices like smartphones. To address this, we introduce
LoRA.rar, a method that not only improves image quality but also achieves a
remarkable speedup of over 4000times in the merging process. LoRA.rar
pre-trains a hypernetwork on a diverse set of content-style LoRA pairs,
learning an efficient merging strategy that generalizes to new, unseen
content-style pairs, enabling fast, high-quality personalization. Moreover, we
identify limitations in existing evaluation metrics for content-style quality
and propose a new protocol using multimodal large language models (MLLM) for
more accurate assessment. Our method significantly outperforms the current
state of the art in both content and style fidelity, as validated by MLLM
assessments and human evaluations.Summary
AI-Generated Summary