LoRA.rar: Обучение слиянию LoRA с помощью гиперсетей для генерации изображений с учетом стиля предмета
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
December 6, 2024
Авторы: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
cs.AI
Аннотация
Недавние достижения в моделях генерации изображений позволили создавать персонализированные изображения с определенными пользователем объектами (контентом) и стилями. Предыдущие работы достигали персонализации путем объединения соответствующих параметров адаптации низкого ранга (LoRAs) с помощью методов на основе оптимизации, которые требуют значительных вычислительных ресурсов и не подходят для использования в реальном времени на ресурсоемких устройствах, таких как смартфоны. Для решения этой проблемы мы представляем метод LoRA.rar, который не только улучшает качество изображения, но также достигает значительного ускорения более чем в 4000 раз в процессе объединения. LoRA.rar предварительно обучает гиперсеть на разнообразном наборе пар LoRA контента и стиля, изучая эффективную стратегию объединения, которая обобщается на новые, невиданные ранее пары контента и стиля, обеспечивая быструю и качественную персонализацию. Более того, мы выявляем ограничения существующих метрик оценки качества контента и стиля и предлагаем новый протокол с использованием мультимодальных больших языковых моделей (MLLM) для более точной оценки. Наш метод значительно превосходит текущее состояние искусства как по достоверности контента, так и стиля, что подтверждается оценками MLLM и оценками людей.
English
Recent advancements in image generation models have enabled personalized
image creation with both user-defined subjects (content) and styles. Prior
works achieved personalization by merging corresponding low-rank adaptation
parameters (LoRAs) through optimization-based methods, which are
computationally demanding and unsuitable for real-time use on
resource-constrained devices like smartphones. To address this, we introduce
LoRA.rar, a method that not only improves image quality but also achieves a
remarkable speedup of over 4000times in the merging process. LoRA.rar
pre-trains a hypernetwork on a diverse set of content-style LoRA pairs,
learning an efficient merging strategy that generalizes to new, unseen
content-style pairs, enabling fast, high-quality personalization. Moreover, we
identify limitations in existing evaluation metrics for content-style quality
and propose a new protocol using multimodal large language models (MLLM) for
more accurate assessment. Our method significantly outperforms the current
state of the art in both content and style fidelity, as validated by MLLM
assessments and human evaluations.Summary
AI-Generated Summary