ChatPaper.aiChatPaper

LoRACLR: Kontrastive Anpassung zur Anpassung von Diffusionsmodellen

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

December 12, 2024
Autoren: Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte in der Anpassung von Text zu Bildern die hochwertige, kontextreiche Generierung personalisierter Bilder ermöglicht, wodurch spezifische Konzepte in verschiedenen Szenarien erscheinen können. Allerdings haben aktuelle Methoden Schwierigkeiten, mehrere personalisierte Modelle zu kombinieren, was häufig zu Attributverflechtungen führt oder separate Schulungen erfordert, um die Konzeptunterscheidung zu bewahren. Wir präsentieren LoRACLR, einen neuartigen Ansatz für die Generierung von Multi-Konzept-Bildern, der mehrere LoRA-Modelle, die jeweils für ein unterschiedliches Konzept feinabgestimmt sind, in ein einziges, vereinheitlichtes Modell fusioniert, ohne zusätzliches individuelles Feintuning. LoRACLR verwendet ein kontrastives Ziel, um die Gewichtsräume dieser Modelle auszurichten und zu fusionieren, um Kompatibilität sicherzustellen und Interferenzen zu minimieren. Durch die Durchsetzung unterschiedlicher, aber zusammenhängender Repräsentationen für jedes Konzept ermöglicht LoRACLR eine effiziente, skalierbare Modellkomposition für hochwertige, Multi-Konzept-Bildsynthese. Unsere Ergebnisse heben die Wirksamkeit von LoRACLR bei der präzisen Fusion mehrerer Konzepte hervor und erweitern die Fähigkeiten der personalisierten Bildgenerierung.
English
Recent advances in text-to-image customization have enabled high-fidelity, context-rich generation of personalized images, allowing specific concepts to appear in a variety of scenarios. However, current methods struggle with combining multiple personalized models, often leading to attribute entanglement or requiring separate training to preserve concept distinctiveness. We present LoRACLR, a novel approach for multi-concept image generation that merges multiple LoRA models, each fine-tuned for a distinct concept, into a single, unified model without additional individual fine-tuning. LoRACLR uses a contrastive objective to align and merge the weight spaces of these models, ensuring compatibility while minimizing interference. By enforcing distinct yet cohesive representations for each concept, LoRACLR enables efficient, scalable model composition for high-quality, multi-concept image synthesis. Our results highlight the effectiveness of LoRACLR in accurately merging multiple concepts, advancing the capabilities of personalized image generation.

Summary

AI-Generated Summary

PDF82December 13, 2024