LoRACLR: Adaptação Constrastiva para Personalização de Modelos de Difusão

Resumo

Os avanços recentes na personalização de texto para imagem têm possibilitado a geração de imagens personalizadas de alta fidelidade e ricas em contexto, permitindo que conceitos específicos apareçam em uma variedade de cenários. No entanto, os métodos atuais enfrentam dificuldades em combinar múltiplos modelos personalizados, frequentemente resultando em emaranhamento de atributos ou exigindo treinamentos separados para preservar a distinção de conceitos. Apresentamos o LoRACLR, uma abordagem inovadora para geração de imagens multi-conceito que mescla múltiplos modelos LoRA, cada um ajustado para um conceito distinto, em um único modelo unificado sem necessidade de ajustes individuais adicionais. O LoRACLR utiliza um objetivo contrastivo para alinhar e mesclar os espaços de pesos desses modelos, garantindo compatibilidade e minimizando interferências. Ao impor representações distintas e coesas para cada conceito, o LoRACLR possibilita a composição eficiente e escalável de modelos para síntese de imagens multi-conceito de alta qualidade. Nossos resultados destacam a eficácia do LoRACLR em mesclar com precisão múltiplos conceitos, avançando as capacidades de geração de imagens personalizadas.

English

Recent advances in text-to-image customization have enabled high-fidelity, context-rich generation of personalized images, allowing specific concepts to appear in a variety of scenarios. However, current methods struggle with combining multiple personalized models, often leading to attribute entanglement or requiring separate training to preserve concept distinctiveness. We present LoRACLR, a novel approach for multi-concept image generation that merges multiple LoRA models, each fine-tuned for a distinct concept, into a single, unified model without additional individual fine-tuning. LoRACLR uses a contrastive objective to align and merge the weight spaces of these models, ensuring compatibility while minimizing interference. By enforcing distinct yet cohesive representations for each concept, LoRACLR enables efficient, scalable model composition for high-quality, multi-concept image synthesis. Our results highlight the effectiveness of LoRACLR in accurately merging multiple concepts, advancing the capabilities of personalized image generation.

LoRACLR: Adaptação Constrastiva para Personalização de Modelos de Difusão

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

Resumo

Support