StyleAdapter: Un Modelo de Paso Único sin LoRA para la Generación de Imágenes Estilizadas
StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image Generation
September 4, 2023
Autores: Zhouxia Wang, Xintao Wang, Liangbin Xie, Zhongang Qi, Ying Shan, Wenping Wang, Ping Luo
cs.AI
Resumen
Este artículo presenta un método sin LoRA para la generación de imágenes estilizadas que toma un texto de entrada y imágenes de referencia de estilo como entradas y produce una imagen de salida en un solo paso. A diferencia de los métodos existentes que dependen del entrenamiento de un LoRA separado para cada estilo, nuestro método puede adaptarse a diversos estilos con un modelo unificado. Sin embargo, esto plantea dos desafíos: 1) el texto de entrada pierde controlabilidad sobre el contenido generado, y 2) la imagen de salida hereda tanto las características semánticas como de estilo de la imagen de referencia, comprometiendo su fidelidad de contenido. Para abordar estos desafíos, introducimos StyleAdapter, un modelo que consta de dos componentes: un módulo de atención cruzada de dos vías (TPCA) y tres estrategias de desacoplamiento. Estos componentes permiten que nuestro modelo procese las características del texto de entrada y las referencias de estilo por separado, reduciendo el fuerte acoplamiento entre la información semántica y de estilo en las referencias de estilo. StyleAdapter puede generar imágenes de alta calidad que coinciden con el contenido de los textos de entrada y adoptan el estilo de las referencias (incluso para estilos no vistos) en un solo paso, lo que resulta más flexible y eficiente que los métodos anteriores. Se han realizado experimentos para demostrar la superioridad de nuestro método sobre trabajos previos.
English
This paper presents a LoRA-free method for stylized image generation that
takes a text prompt and style reference images as inputs and produces an output
image in a single pass. Unlike existing methods that rely on training a
separate LoRA for each style, our method can adapt to various styles with a
unified model. However, this poses two challenges: 1) the prompt loses
controllability over the generated content, and 2) the output image inherits
both the semantic and style features of the style reference image, compromising
its content fidelity. To address these challenges, we introduce StyleAdapter, a
model that comprises two components: a two-path cross-attention module (TPCA)
and three decoupling strategies. These components enable our model to process
the prompt and style reference features separately and reduce the strong
coupling between the semantic and style information in the style references.
StyleAdapter can generate high-quality images that match the content of the
prompts and adopt the style of the references (even for unseen styles) in a
single pass, which is more flexible and efficient than previous methods.
Experiments have been conducted to demonstrate the superiority of our method
over previous works.