LoRA.rar: Aprendizado para Mesclar LoRAs via Hypernetworks para Geração de Imagens Condicionadas por Estilo de Assunto

Resumo

Avanços recentes em modelos de geração de imagens têm possibilitado a criação de imagens personalizadas com temas (conteúdo) e estilos definidos pelo usuário. Trabalhos anteriores alcançaram a personalização ao mesclar parâmetros de adaptação de baixa ordem correspondentes (LoRAs) por meio de métodos baseados em otimização, que são computacionalmente exigentes e inadequados para uso em tempo real em dispositivos com recursos limitados, como smartphones. Para lidar com isso, apresentamos o LoRA.rar, um método que não apenas melhora a qualidade da imagem, mas também alcança uma aceleração notável de mais de 4000 vezes no processo de mesclagem. O LoRA.rar pré-treina um hiper-rede em um conjunto diversificado de pares LoRA de conteúdo-estilo, aprendendo uma estratégia eficiente de mesclagem que generaliza para novos pares de conteúdo-estilo não vistos, possibilitando uma personalização rápida e de alta qualidade. Além disso, identificamos limitações nas métricas de avaliação existentes para qualidade de conteúdo-estilo e propomos um novo protocolo usando modelos de linguagem multimodais grandes (MLLM) para uma avaliação mais precisa. Nosso método supera significativamente o estado da arte atual tanto em fidelidade de conteúdo quanto de estilo, conforme validado por avaliações de MLLM e avaliações humanas.

English

Recent advancements in image generation models have enabled personalized image creation with both user-defined subjects (content) and styles. Prior works achieved personalization by merging corresponding low-rank adaptation parameters (LoRAs) through optimization-based methods, which are computationally demanding and unsuitable for real-time use on resource-constrained devices like smartphones. To address this, we introduce LoRA.rar, a method that not only improves image quality but also achieves a remarkable speedup of over 4000times in the merging process. LoRA.rar pre-trains a hypernetwork on a diverse set of content-style LoRA pairs, learning an efficient merging strategy that generalizes to new, unseen content-style pairs, enabling fast, high-quality personalization. Moreover, we identify limitations in existing evaluation metrics for content-style quality and propose a new protocol using multimodal large language models (MLLM) for more accurate assessment. Our method significantly outperforms the current state of the art in both content and style fidelity, as validated by MLLM assessments and human evaluations.

LoRA.rar: Aprendizado para Mesclar LoRAs via Hypernetworks para Geração de Imagens Condicionadas por Estilo de Assunto

LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

Resumo

Support