LoRA.rar: Aprendizado para Mesclar LoRAs via Hypernetworks para Geração de Imagens Condicionadas por Estilo de Assunto
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
December 6, 2024
Autores: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
cs.AI
Resumo
Avanços recentes em modelos de geração de imagens têm possibilitado a criação de imagens personalizadas com temas (conteúdo) e estilos definidos pelo usuário. Trabalhos anteriores alcançaram a personalização ao mesclar parâmetros de adaptação de baixa ordem correspondentes (LoRAs) por meio de métodos baseados em otimização, que são computacionalmente exigentes e inadequados para uso em tempo real em dispositivos com recursos limitados, como smartphones. Para lidar com isso, apresentamos o LoRA.rar, um método que não apenas melhora a qualidade da imagem, mas também alcança uma aceleração notável de mais de 4000 vezes no processo de mesclagem. O LoRA.rar pré-treina um hiper-rede em um conjunto diversificado de pares LoRA de conteúdo-estilo, aprendendo uma estratégia eficiente de mesclagem que generaliza para novos pares de conteúdo-estilo não vistos, possibilitando uma personalização rápida e de alta qualidade. Além disso, identificamos limitações nas métricas de avaliação existentes para qualidade de conteúdo-estilo e propomos um novo protocolo usando modelos de linguagem multimodais grandes (MLLM) para uma avaliação mais precisa. Nosso método supera significativamente o estado da arte atual tanto em fidelidade de conteúdo quanto de estilo, conforme validado por avaliações de MLLM e avaliações humanas.
English
Recent advancements in image generation models have enabled personalized
image creation with both user-defined subjects (content) and styles. Prior
works achieved personalization by merging corresponding low-rank adaptation
parameters (LoRAs) through optimization-based methods, which are
computationally demanding and unsuitable for real-time use on
resource-constrained devices like smartphones. To address this, we introduce
LoRA.rar, a method that not only improves image quality but also achieves a
remarkable speedup of over 4000times in the merging process. LoRA.rar
pre-trains a hypernetwork on a diverse set of content-style LoRA pairs,
learning an efficient merging strategy that generalizes to new, unseen
content-style pairs, enabling fast, high-quality personalization. Moreover, we
identify limitations in existing evaluation metrics for content-style quality
and propose a new protocol using multimodal large language models (MLLM) for
more accurate assessment. Our method significantly outperforms the current
state of the art in both content and style fidelity, as validated by MLLM
assessments and human evaluations.Summary
AI-Generated Summary