ChatPaper.aiChatPaper

LoRA.rar : Apprentissage de la fusion des LoRAs via des hyperréseaux pour la génération d'images conditionnées par le style du sujet

LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

December 6, 2024
Auteurs: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
cs.AI

Résumé

Les récents progrès dans les modèles de génération d'images ont permis la création d'images personnalisées avec à la fois des sujets (contenu) et des styles définis par l'utilisateur. Les travaux antérieurs ont réalisé la personnalisation en fusionnant les paramètres d'adaptation de bas rang correspondants (LoRAs) à travers des méthodes basées sur l'optimisation, qui sont exigeantes en termes de calcul et inadaptées à une utilisation en temps réel sur des appareils aux ressources limitées tels que les smartphones. Pour remédier à cela, nous introduisons LoRA.rar, une méthode qui non seulement améliore la qualité des images mais permet également un gain de vitesse remarquable de plus de 4000 fois dans le processus de fusion. LoRA.rar pré-entraîne un hyper-réseau sur un ensemble diversifié de paires LoRA de contenu-style, apprenant une stratégie de fusion efficace qui se généralise à de nouvelles paires contenu-style non vues, permettant une personnalisation rapide et de haute qualité. De plus, nous identifions des limitations dans les métriques d'évaluation existantes pour la qualité contenu-style et proposons un nouveau protocole utilisant des modèles de langage multimodaux de grande taille (MLLM) pour une évaluation plus précise. Notre méthode surpasse significativement l'état de l'art actuel à la fois en termes de fidélité au contenu et au style, comme validé par les évaluations MLLM et humaines.
English
Recent advancements in image generation models have enabled personalized image creation with both user-defined subjects (content) and styles. Prior works achieved personalization by merging corresponding low-rank adaptation parameters (LoRAs) through optimization-based methods, which are computationally demanding and unsuitable for real-time use on resource-constrained devices like smartphones. To address this, we introduce LoRA.rar, a method that not only improves image quality but also achieves a remarkable speedup of over 4000times in the merging process. LoRA.rar pre-trains a hypernetwork on a diverse set of content-style LoRA pairs, learning an efficient merging strategy that generalizes to new, unseen content-style pairs, enabling fast, high-quality personalization. Moreover, we identify limitations in existing evaluation metrics for content-style quality and propose a new protocol using multimodal large language models (MLLM) for more accurate assessment. Our method significantly outperforms the current state of the art in both content and style fidelity, as validated by MLLM assessments and human evaluations.

Summary

AI-Generated Summary

PDF123December 11, 2024