LoRA.rar: Aprendizaje para Fusionar LoRAs a través de Hiperredes para Generación de Imágenes Condicionadas por Estilo de Sujeto
LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation
December 6, 2024
Autores: Donald Shenaj, Ondrej Bohdal, Mete Ozay, Pietro Zanuttigh, Umberto Michieli
cs.AI
Resumen
Los avances recientes en modelos de generación de imágenes han permitido la creación de imágenes personalizadas con sujetos (contenido) y estilos definidos por el usuario. Trabajos anteriores lograron la personalización mediante la fusión de parámetros de adaptación de baja jerarquía (LoRAs) correspondientes a través de métodos basados en optimización, que son computacionalmente exigentes y no adecuados para su uso en tiempo real en dispositivos con recursos limitados como teléfonos inteligentes. Para abordar esto, presentamos LoRA.rar, un método que no solo mejora la calidad de la imagen, sino que también logra una aceleración notable de más de 4000 veces en el proceso de fusión. LoRA.rar preentrena un hiperred en un conjunto diverso de pares LoRA de contenido-estilo, aprendiendo una estrategia de fusión eficiente que generaliza a nuevos pares de contenido-estilo no vistos, permitiendo una personalización rápida y de alta calidad. Además, identificamos limitaciones en las métricas de evaluación existentes para la calidad de contenido-estilo y proponemos un nuevo protocolo que utiliza modelos de lenguaje multimodales grandes (MLLM) para una evaluación más precisa. Nuestro método supera significativamente el estado del arte actual tanto en fidelidad de contenido como de estilo, como lo validan las evaluaciones de MLLM y las evaluaciones humanas.
English
Recent advancements in image generation models have enabled personalized
image creation with both user-defined subjects (content) and styles. Prior
works achieved personalization by merging corresponding low-rank adaptation
parameters (LoRAs) through optimization-based methods, which are
computationally demanding and unsuitable for real-time use on
resource-constrained devices like smartphones. To address this, we introduce
LoRA.rar, a method that not only improves image quality but also achieves a
remarkable speedup of over 4000times in the merging process. LoRA.rar
pre-trains a hypernetwork on a diverse set of content-style LoRA pairs,
learning an efficient merging strategy that generalizes to new, unseen
content-style pairs, enabling fast, high-quality personalization. Moreover, we
identify limitations in existing evaluation metrics for content-style quality
and propose a new protocol using multimodal large language models (MLLM) for
more accurate assessment. Our method significantly outperforms the current
state of the art in both content and style fidelity, as validated by MLLM
assessments and human evaluations.Summary
AI-Generated Summary