Мульти-LoRA композиция для генерации изображений

Аннотация

Метод Low-Rank Adaptation (LoRA) широко используется в моделях генерации изображений из текста для точного воспроизведения конкретных элементов, таких как уникальные персонажи или особые стили в создаваемых изображениях. Однако существующие подходы сталкиваются с трудностями при эффективной композиции нескольких LoRA, особенно с увеличением количества интегрируемых LoRA, что ограничивает создание сложных изображений. В данной работе мы исследуем композицию нескольких LoRA с точки зрения декодирования. Мы предлагаем два метода, не требующих дополнительного обучения: LoRA Switch, который переключается между различными LoRA на каждом шаге удаления шума, и LoRA Composite, который одновременно включает все LoRA для более согласованного синтеза изображений. Для оценки предложенных подходов мы создали ComposLoRA — новую комплексную тестовую платформу, включающую 480 наборов композиций из разнообразных категорий LoRA. Используя оценочную систему на основе GPT-4V, наши результаты демонстрируют значительное улучшение производительности по сравнению с распространенным базовым методом, особенно заметное при увеличении количества LoRA в композиции.

English

Low-Rank Adaptation (LoRA) is extensively utilized in text-to-image models for the accurate rendition of specific elements like distinct characters or unique styles in generated images. Nonetheless, existing methods face challenges in effectively composing multiple LoRAs, especially as the number of LoRAs to be integrated grows, thus hindering the creation of complex imagery. In this paper, we study multi-LoRA composition through a decoding-centric perspective. We present two training-free methods: LoRA Switch, which alternates between different LoRAs at each denoising step, and LoRA Composite, which simultaneously incorporates all LoRAs to guide more cohesive image synthesis. To evaluate the proposed approaches, we establish ComposLoRA, a new comprehensive testbed as part of this research. It features a diverse range of LoRA categories with 480 composition sets. Utilizing an evaluation framework based on GPT-4V, our findings demonstrate a clear improvement in performance with our methods over the prevalent baseline, particularly evident when increasing the number of LoRAs in a composition.

Мульти-LoRA композиция для генерации изображений

Multi-LoRA Composition for Image Generation

Аннотация

Support