ChatPaper.aiChatPaper

StyleAdapter: Однопроходная модель без LoRA для генерации стилизованных изображений

StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image Generation

September 4, 2023
Авторы: Zhouxia Wang, Xintao Wang, Liangbin Xie, Zhongang Qi, Ying Shan, Wenping Wang, Ping Luo
cs.AI

Аннотация

В данной статье представлен метод генерации стилизованных изображений без использования LoRA, который принимает текстовый запрос и эталонные изображения стиля в качестве входных данных и создает выходное изображение за один проход. В отличие от существующих методов, которые требуют обучения отдельного LoRA для каждого стиля, наш метод способен адаптироваться к различным стилям с помощью единой модели. Однако это создает две проблемы: 1) запрос теряет управляемость над генерируемым содержимым, и 2) выходное изображение наследует как семантические, так и стилевые особенности эталонного изображения, что снижает точность передачи содержания. Для решения этих проблем мы представляем StyleAdapter — модель, состоящую из двух компонентов: модуля двухпутевого кросс-внимания (TPCA) и трех стратегий разделения. Эти компоненты позволяют модели обрабатывать признаки запроса и эталонного стиля отдельно и уменьшают сильную связь между семантической и стилевой информацией в эталонных изображениях. StyleAdapter способен генерировать высококачественные изображения, которые соответствуют содержанию запросов и перенимают стиль эталонов (даже для ранее не встречавшихся стилей) за один проход, что делает метод более гибким и эффективным по сравнению с предыдущими подходами. Проведенные эксперименты демонстрируют превосходство нашего метода над существующими решениями.
English
This paper presents a LoRA-free method for stylized image generation that takes a text prompt and style reference images as inputs and produces an output image in a single pass. Unlike existing methods that rely on training a separate LoRA for each style, our method can adapt to various styles with a unified model. However, this poses two challenges: 1) the prompt loses controllability over the generated content, and 2) the output image inherits both the semantic and style features of the style reference image, compromising its content fidelity. To address these challenges, we introduce StyleAdapter, a model that comprises two components: a two-path cross-attention module (TPCA) and three decoupling strategies. These components enable our model to process the prompt and style reference features separately and reduce the strong coupling between the semantic and style information in the style references. StyleAdapter can generate high-quality images that match the content of the prompts and adopt the style of the references (even for unseen styles) in a single pass, which is more flexible and efficient than previous methods. Experiments have been conducted to demonstrate the superiority of our method over previous works.
PDF121December 15, 2024