LoRA.rar: Обучение слиянию LoRA с помощью гиперсетей для генерации изображений с учетом стиля предмета

Аннотация

Недавние достижения в моделях генерации изображений позволили создавать персонализированные изображения с определенными пользователем объектами (контентом) и стилями. Предыдущие работы достигали персонализации путем объединения соответствующих параметров адаптации низкого ранга (LoRAs) с помощью методов на основе оптимизации, которые требуют значительных вычислительных ресурсов и не подходят для использования в реальном времени на ресурсоемких устройствах, таких как смартфоны. Для решения этой проблемы мы представляем метод LoRA.rar, который не только улучшает качество изображения, но также достигает значительного ускорения более чем в 4000 раз в процессе объединения. LoRA.rar предварительно обучает гиперсеть на разнообразном наборе пар LoRA контента и стиля, изучая эффективную стратегию объединения, которая обобщается на новые, невиданные ранее пары контента и стиля, обеспечивая быструю и качественную персонализацию. Более того, мы выявляем ограничения существующих метрик оценки качества контента и стиля и предлагаем новый протокол с использованием мультимодальных больших языковых моделей (MLLM) для более точной оценки. Наш метод значительно превосходит текущее состояние искусства как по достоверности контента, так и стиля, что подтверждается оценками MLLM и оценками людей.

English

Recent advancements in image generation models have enabled personalized image creation with both user-defined subjects (content) and styles. Prior works achieved personalization by merging corresponding low-rank adaptation parameters (LoRAs) through optimization-based methods, which are computationally demanding and unsuitable for real-time use on resource-constrained devices like smartphones. To address this, we introduce LoRA.rar, a method that not only improves image quality but also achieves a remarkable speedup of over 4000times in the merging process. LoRA.rar pre-trains a hypernetwork on a diverse set of content-style LoRA pairs, learning an efficient merging strategy that generalizes to new, unseen content-style pairs, enabling fast, high-quality personalization. Moreover, we identify limitations in existing evaluation metrics for content-style quality and propose a new protocol using multimodal large language models (MLLM) for more accurate assessment. Our method significantly outperforms the current state of the art in both content and style fidelity, as validated by MLLM assessments and human evaluations.

LoRA.rar: Обучение слиянию LoRA с помощью гиперсетей для генерации изображений с учетом стиля предмета

LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

Аннотация

Support