ChatPaper.aiChatPaper

LoRACLR: Contrastieve Aanpassing voor Aanpassing van Diffusiemodellen

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

December 12, 2024
Auteurs: Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
cs.AI

Samenvatting

Recente ontwikkelingen in tekst-naar-afbeelding aanpassing hebben hoogwaardige, contextrijke generatie van gepersonaliseerde afbeeldingen mogelijk gemaakt, waardoor specifieke concepten in verschillende scenario's kunnen verschijnen. Echter, huidige methoden worstelen met het combineren van meerdere gepersonaliseerde modellen, wat vaak leidt tot attribuutverstrengeling of het vereisen van aparte training om conceptonderscheidendheid te behouden. Wij presenteren LoRACLR, een nieuw benadering voor multi-concept afbeeldingsgeneratie die meerdere LoRA modellen samenvoegt, elk fijnafgestemd voor een afzonderlijk concept, in één, verenigd model zonder extra individuele fijnafstemming. LoRACLR maakt gebruik van een contrastieve doelstelling om de gewichtsruimtes van deze modellen uit te lijnen en samen te voegen, waarbij compatibiliteit wordt gegarandeerd terwijl interferentie wordt geminimaliseerd. Door onderscheidende maar samenhangende representaties voor elk concept af te dwingen, maakt LoRACLR efficiënte, schaalbare modelcompositie mogelijk voor hoogwaardige, multi-concept afbeeldingssynthese. Onze resultaten benadrukken de effectiviteit van LoRACLR bij het nauwkeurig samenvoegen van meerdere concepten, waarmee de mogelijkheden van gepersonaliseerde afbeeldingsgeneratie worden uitgebreid.
English
Recent advances in text-to-image customization have enabled high-fidelity, context-rich generation of personalized images, allowing specific concepts to appear in a variety of scenarios. However, current methods struggle with combining multiple personalized models, often leading to attribute entanglement or requiring separate training to preserve concept distinctiveness. We present LoRACLR, a novel approach for multi-concept image generation that merges multiple LoRA models, each fine-tuned for a distinct concept, into a single, unified model without additional individual fine-tuning. LoRACLR uses a contrastive objective to align and merge the weight spaces of these models, ensuring compatibility while minimizing interference. By enforcing distinct yet cohesive representations for each concept, LoRACLR enables efficient, scalable model composition for high-quality, multi-concept image synthesis. Our results highlight the effectiveness of LoRACLR in accurately merging multiple concepts, advancing the capabilities of personalized image generation.
PDF82December 13, 2024