ChatPaper.aiChatPaper

LoRACLR : Adaptation Contrastive pour la Personnalisation des Modèles de Diffusion

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

December 12, 2024
Auteurs: Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
cs.AI

Résumé

Les récentes avancées dans la personnalisation texte-image ont permis une génération de haute fidélité et riche en contexte d'images personnalisées, permettant à des concepts spécifiques d'apparaître dans une variété de scénarios. Cependant, les méthodes actuelles peinent à combiner plusieurs modèles personnalisés, entraînant souvent un enchevêtrement d'attributs ou nécessitant un entraînement séparé pour préserver la distinction des concepts. Nous présentons LoRACLR, une approche novatrice pour la génération d'images multi-concepts qui fusionne plusieurs modèles LoRA, chacun affiné pour un concept distinct, en un seul modèle unifié sans entraînement individuel supplémentaire. LoRACLR utilise un objectif contrastif pour aligner et fusionner les espaces de poids de ces modèles, garantissant la compatibilité tout en minimisant les interférences. En imposant des représentations distinctes mais cohérentes pour chaque concept, LoRACLR permet une composition de modèle efficace et évolutive pour une synthèse d'images multi-concepts de haute qualité. Nos résultats mettent en évidence l'efficacité de LoRACLR dans la fusion précise de plusieurs concepts, faisant progresser les capacités de génération d'images personnalisées.
English
Recent advances in text-to-image customization have enabled high-fidelity, context-rich generation of personalized images, allowing specific concepts to appear in a variety of scenarios. However, current methods struggle with combining multiple personalized models, often leading to attribute entanglement or requiring separate training to preserve concept distinctiveness. We present LoRACLR, a novel approach for multi-concept image generation that merges multiple LoRA models, each fine-tuned for a distinct concept, into a single, unified model without additional individual fine-tuning. LoRACLR uses a contrastive objective to align and merge the weight spaces of these models, ensuring compatibility while minimizing interference. By enforcing distinct yet cohesive representations for each concept, LoRACLR enables efficient, scalable model composition for high-quality, multi-concept image synthesis. Our results highlight the effectiveness of LoRACLR in accurately merging multiple concepts, advancing the capabilities of personalized image generation.

Summary

AI-Generated Summary

PDF82December 13, 2024