LoRACLR: Adaptación Contrastiva para la Personalización de Modelos de Difusión
LoRACLR: Contrastive Adaptation for Customization of Diffusion Models
December 12, 2024
Autores: Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
cs.AI
Resumen
Los avances recientes en personalización de texto a imagen han permitido la generación de imágenes personalizadas de alta fidelidad y ricas en contexto, lo que posibilita que conceptos específicos aparezcan en una variedad de escenarios. Sin embargo, los métodos actuales tienen dificultades para combinar múltiples modelos personalizados, a menudo resultando en enredos de atributos o requiriendo entrenamientos separados para preservar la distinción de conceptos. Presentamos LoRACLR, un enfoque novedoso para la generación de imágenes multi-concepto que fusiona múltiples modelos LoRA, cada uno ajustado para un concepto distinto, en un único modelo unificado sin necesidad de ajustes individuales adicionales. LoRACLR utiliza un objetivo contrastivo para alinear y fusionar los espacios de pesos de estos modelos, asegurando compatibilidad y minimizando interferencias. Al imponer representaciones distintas pero cohesivas para cada concepto, LoRACLR permite una composición eficiente y escalable de modelos para síntesis de imágenes multi-concepto de alta calidad. Nuestros resultados resaltan la efectividad de LoRACLR en fusionar con precisión múltiples conceptos, avanzando en las capacidades de generación de imágenes personalizadas.
English
Recent advances in text-to-image customization have enabled high-fidelity,
context-rich generation of personalized images, allowing specific concepts to
appear in a variety of scenarios. However, current methods struggle with
combining multiple personalized models, often leading to attribute entanglement
or requiring separate training to preserve concept distinctiveness. We present
LoRACLR, a novel approach for multi-concept image generation that merges
multiple LoRA models, each fine-tuned for a distinct concept, into a single,
unified model without additional individual fine-tuning. LoRACLR uses a
contrastive objective to align and merge the weight spaces of these models,
ensuring compatibility while minimizing interference. By enforcing distinct yet
cohesive representations for each concept, LoRACLR enables efficient, scalable
model composition for high-quality, multi-concept image synthesis. Our results
highlight the effectiveness of LoRACLR in accurately merging multiple concepts,
advancing the capabilities of personalized image generation.Summary
AI-Generated Summary