ChatPaper.aiChatPaper

LoRACLR: Контрастная адаптация для настройки моделей диффузии.

LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

December 12, 2024
Авторы: Enis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag
cs.AI

Аннотация

Недавние достижения в персонализации текста к изображению позволили создавать изображения высокой точности с обилием контекста, позволяя определенным концепциям появляться в различных сценариях. Однако текущие методы испытывают затруднения при объединении нескольких персонализированных моделей, часто приводя к запутанности атрибутов или требуя отдельного обучения для сохранения отличительности концепций. Мы представляем LoRACLR, новый подход к генерации изображений с несколькими концепциями, который объединяет несколько моделей LoRA, каждая из которых донастраивается для отдельной концепции, в единую модель без дополнительного индивидуального донастройки. LoRACLR использует контрастный объект для выравнивания и слияния весовых пространств этих моделей, обеспечивая их совместимость и минимизируя взаимное влияние. Обеспечивая отдельные, но связные представления для каждой концепции, LoRACLR обеспечивает эффективное, масштабируемое объединение моделей для синтеза изображений высокого качества с несколькими концепциями. Наши результаты подчеркивают эффективность LoRACLR в точном объединении нескольких концепций, расширяя возможности персонализированной генерации изображений.
English
Recent advances in text-to-image customization have enabled high-fidelity, context-rich generation of personalized images, allowing specific concepts to appear in a variety of scenarios. However, current methods struggle with combining multiple personalized models, often leading to attribute entanglement or requiring separate training to preserve concept distinctiveness. We present LoRACLR, a novel approach for multi-concept image generation that merges multiple LoRA models, each fine-tuned for a distinct concept, into a single, unified model without additional individual fine-tuning. LoRACLR uses a contrastive objective to align and merge the weight spaces of these models, ensuring compatibility while minimizing interference. By enforcing distinct yet cohesive representations for each concept, LoRACLR enables efficient, scalable model composition for high-quality, multi-concept image synthesis. Our results highlight the effectiveness of LoRACLR in accurately merging multiple concepts, advancing the capabilities of personalized image generation.

Summary

AI-Generated Summary

PDF82December 13, 2024