LoRA.rar:ハイパーネットワークを介してLoRAをマージするための学習:主題スタイル条件付き画像生成
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
December 6, 2024
著者: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
cs.AI
要旨
最近の画像生成モデルの進歩により、ユーザー定義の被写体(コンテンツ)とスタイルを持つ個人向け画像の作成が可能となりました。これまでの研究では、最適化ベースの方法を用いて対応する低ランク適応パラメータ(LoRAs)をマージすることで個人化を達成してきましたが、これは計算量が多く、スマートフォンなどのリソース制約のあるデバイスでのリアルタイム使用には適していません。この課題に対処するために、私たちはLoRA.rarを導入します。LoRA.rarは画像品質を向上させるだけでなく、マージプロセスで4000倍以上の驚異的な高速化を実現します。LoRA.rarは、多様なコンテンツ-スタイルLoRAペアのハイパーネットワークを事前トレーニングし、新しい未知のコンテンツ-スタイルペアにも一般化できる効率的なマージ戦略を学習することで、高速で高品質な個人化を実現します。さらに、既存のコンテンツ-スタイル品質の評価メトリクスの限界を特定し、より正確な評価のためにマルチモーダル大規模言語モデル(MLLM)を使用した新しいプロトコルを提案します。私たちの手法は、MLLMの評価と人間の評価によって検証されたように、コンテンツとスタイルの忠実度の両方で現行の最先端技術を大幅に上回っています。
English
Recent advancements in image generation models have enabled personalized
image creation with both user-defined subjects (content) and styles. Prior
works achieved personalization by merging corresponding low-rank adaptation
parameters (LoRAs) through optimization-based methods, which are
computationally demanding and unsuitable for real-time use on
resource-constrained devices like smartphones. To address this, we introduce
LoRA.rar, a method that not only improves image quality but also achieves a
remarkable speedup of over 4000times in the merging process. LoRA.rar
pre-trains a hypernetwork on a diverse set of content-style LoRA pairs,
learning an efficient merging strategy that generalizes to new, unseen
content-style pairs, enabling fast, high-quality personalization. Moreover, we
identify limitations in existing evaluation metrics for content-style quality
and propose a new protocol using multimodal large language models (MLLM) for
more accurate assessment. Our method significantly outperforms the current
state of the art in both content and style fidelity, as validated by MLLM
assessments and human evaluations.Summary
AI-Generated Summary